描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787511636560
内容简介
当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本文主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。
目 录
章引言()
节问题的提出及研究意义()
第二节语音识别概述()
一、语音识别的发展()
二、语音识别的分类()
三、基于统计模型的语音识别()
第三节影响语音识别鲁棒性的因素()
第四节语音识别及声学技术在农业领域的应用()
一、国外研究情况()
二、国内研究情况()
第五节研究内容()
第六节章节安排()
第二章噪声鲁棒性语音识别的研究现状()
节噪声分类()
一、加性噪声与乘性噪声()
二、噪声特性分析()
第二节噪声鲁棒性方法研究现状()
一、语音增强()
二、鲁棒性特征提取()
三、模型补偿()
第三章基于HMM框架的农产品价格语音识别()
节HMM模型()
一、HMM的概述()
二、HMM的数学定义()
三、HMM的三个基本问题()
第二节基于HTK的实验平台构建()
一、语音数据库()
二、MFCC特征提取()
三、声学模型的设置()
四、识别性能的评价标准()
第四章系统的三音子模型优化及特征规整()
节扩展的声韵母建模基元()
一、汉语语音学特点()
二、汉语声母结构()
三、汉语韵母结构()
四、扩展的声韵母识别基元定义()
第二节基于决策树的状态共享()
一、决策树的构造()
二、二值问题集的设计()
三、结点分裂准则()
四、结点停止分裂()
五、结点合并()
第三节增加高斯混合分量()
第四节倒谱特征归一化()
第五节实验及分析()
一、三音子模型识别实验()
二、决策树状态聚类()
三、高斯混合分量增加()
四、倒谱均值方差(CMVN)归一化()
第五章联合谱减增强和失真补偿的鲁棒性方法()
节谱减法()
一、谱减的基本原理()
二、使用过减(over subtraction)技术的谱减算法()
第二节多带(multi band)谱减法()
第三节MMSE谱减算法()
第四节实验()
一、MMSE谱减法参数优化实验()
二、不同环境下联合算法实验()
第六章基于统计模型的前端增强与失真补偿的结合()
节MMSE幅度谱估计()
一、MMSE幅度估计器()
二、先验SNR的估计()
第二节对数MMSE估计器()
第三节MMSE估计的实现()
第四节实验()
一、采用MMSE估计器与logMMSE方法增强()
二、MMSE、logMMSE与CMVN联合实验()
三、实际环境语音测试()
第五节算法综合比较()
第七章结论及展望()
节研究总结()
第二节展望()
参考文献()
节问题的提出及研究意义()
第二节语音识别概述()
一、语音识别的发展()
二、语音识别的分类()
三、基于统计模型的语音识别()
第三节影响语音识别鲁棒性的因素()
第四节语音识别及声学技术在农业领域的应用()
一、国外研究情况()
二、国内研究情况()
第五节研究内容()
第六节章节安排()
第二章噪声鲁棒性语音识别的研究现状()
节噪声分类()
一、加性噪声与乘性噪声()
二、噪声特性分析()
第二节噪声鲁棒性方法研究现状()
一、语音增强()
二、鲁棒性特征提取()
三、模型补偿()
第三章基于HMM框架的农产品价格语音识别()
节HMM模型()
一、HMM的概述()
二、HMM的数学定义()
三、HMM的三个基本问题()
第二节基于HTK的实验平台构建()
一、语音数据库()
二、MFCC特征提取()
三、声学模型的设置()
四、识别性能的评价标准()
第四章系统的三音子模型优化及特征规整()
节扩展的声韵母建模基元()
一、汉语语音学特点()
二、汉语声母结构()
三、汉语韵母结构()
四、扩展的声韵母识别基元定义()
第二节基于决策树的状态共享()
一、决策树的构造()
二、二值问题集的设计()
三、结点分裂准则()
四、结点停止分裂()
五、结点合并()
第三节增加高斯混合分量()
第四节倒谱特征归一化()
第五节实验及分析()
一、三音子模型识别实验()
二、决策树状态聚类()
三、高斯混合分量增加()
四、倒谱均值方差(CMVN)归一化()
第五章联合谱减增强和失真补偿的鲁棒性方法()
节谱减法()
一、谱减的基本原理()
二、使用过减(over subtraction)技术的谱减算法()
第二节多带(multi band)谱减法()
第三节MMSE谱减算法()
第四节实验()
一、MMSE谱减法参数优化实验()
二、不同环境下联合算法实验()
第六章基于统计模型的前端增强与失真补偿的结合()
节MMSE幅度谱估计()
一、MMSE幅度估计器()
二、先验SNR的估计()
第二节对数MMSE估计器()
第三节MMSE估计的实现()
第四节实验()
一、采用MMSE估计器与logMMSE方法增强()
二、MMSE、logMMSE与CMVN联合实验()
三、实际环境语音测试()
第五节算法综合比较()
第七章结论及展望()
节研究总结()
第二节展望()
参考文献()
前 言
前言
当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本书主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。本书主要研究的内容包括:
(1)基于隐马尔科夫模型(HMM)框架建立了声学模型,利用自建的农产品市场信息语料库进行训练和测试HHM模型,基于HTK工具包建立了农产品价格语音识别基线系统。
(2)在分析农产品市场信息采集环境的噪声特点的基础上,从模型空间和特征空间对系统采取了多种鲁棒性方法,包括:在声学模型的识别基元选取上,采用了一种扩展的三音素声韵母模型,有效地解决了音节内部和音节间的协同发音问题,大大提高了识别率;针对建模后三音子模型数量急剧增加问题,采用了决策树状态聚类方法,建立了一套二值问题规则集,并将语音学的专业知识融合进决策树,通过聚类减少了三音子模型的数量,有效地解决了训练数据不充分问题;鉴于倒谱均值归一化(CMN)方法在消除信道卷积噪声以及加性噪声方面的良好表现,在农产品市场信息语音识别系统中采用,有效缓解了信道噪声影响。
(3)在信号空间,为了提高输入语音信号的信噪比,采用了谱减类算法进行语音增强,但谱减算法容易带来信道失真和“音乐”噪声。为了减少这种失真,提出了一种联合语音增强与特征补偿的鲁棒性方法,把倒谱均值方差归一化方法(CMVN)与谱减类算法进行了结合,二者互为补充。实验结果表明,联合后的算法能有效提高系统的识别率,特别是在低信噪比时效果更为明显。
(4)在统计估计理论的框架下,研究了估计幅度与实际幅度的小均方误差(MMSE)估计器以及对数小均方误差(logMMSE)幅度估计器。在此基础上提出了一种联合MMSE以及logMMSE幅度估计与CMVN失真补偿的鲁棒性方法。不同农产品市场信息采集环境下的实验证明,该方法具有一定的噪声鲁棒性,多种空间算法的有机结合可以提供系统的鲁棒性,特别是在低信噪比时更为明显。
本书的研究为语音识别在农产品市场信息采集环境中的应用建立了一套鲁棒性方法,为今后语音识别在农业信息采集领域的应用提供了借鉴。然而,由于水平所限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。
本书初稿完成后,得到了诸叶平、赵俊峰、王向东、周国民等人的审阅和指导,提出了很多宝贵意见,对本书质量的提高有很大帮助,在此向他们表示衷心的感谢。
本书是作者参与承担国家自然科学基金项目的部分研究成果,具有一定的理论性和实际应用性。
当前语音识别的研究已取得了较为丰硕的成果,在安静环境下性能令人满意,逐渐被应用在诸多人机交互的场合。然而,由于噪声的存在,语音识别系统在实际环境下性能急剧下降,如何提高语音识别的噪声鲁棒性,逐渐成为近年来语音识别的研究热点。本书主要研究农产品市场信息采集作业环境中的语音识别噪声鲁棒性问题,针对当前缺乏面向农产品市场信息采集领域的语音识别引擎,而通用领域的识别算法又不适合解决上述问题,分析环境的噪声特点,面向非特定人和中小规模词汇量的连续汉语普通话识别,训练声学模型,研究适用于该环境下的语音识别鲁棒性方法。本书主要研究的内容包括:
(1)基于隐马尔科夫模型(HMM)框架建立了声学模型,利用自建的农产品市场信息语料库进行训练和测试HHM模型,基于HTK工具包建立了农产品价格语音识别基线系统。
(2)在分析农产品市场信息采集环境的噪声特点的基础上,从模型空间和特征空间对系统采取了多种鲁棒性方法,包括:在声学模型的识别基元选取上,采用了一种扩展的三音素声韵母模型,有效地解决了音节内部和音节间的协同发音问题,大大提高了识别率;针对建模后三音子模型数量急剧增加问题,采用了决策树状态聚类方法,建立了一套二值问题规则集,并将语音学的专业知识融合进决策树,通过聚类减少了三音子模型的数量,有效地解决了训练数据不充分问题;鉴于倒谱均值归一化(CMN)方法在消除信道卷积噪声以及加性噪声方面的良好表现,在农产品市场信息语音识别系统中采用,有效缓解了信道噪声影响。
(3)在信号空间,为了提高输入语音信号的信噪比,采用了谱减类算法进行语音增强,但谱减算法容易带来信道失真和“音乐”噪声。为了减少这种失真,提出了一种联合语音增强与特征补偿的鲁棒性方法,把倒谱均值方差归一化方法(CMVN)与谱减类算法进行了结合,二者互为补充。实验结果表明,联合后的算法能有效提高系统的识别率,特别是在低信噪比时效果更为明显。
(4)在统计估计理论的框架下,研究了估计幅度与实际幅度的小均方误差(MMSE)估计器以及对数小均方误差(logMMSE)幅度估计器。在此基础上提出了一种联合MMSE以及logMMSE幅度估计与CMVN失真补偿的鲁棒性方法。不同农产品市场信息采集环境下的实验证明,该方法具有一定的噪声鲁棒性,多种空间算法的有机结合可以提供系统的鲁棒性,特别是在低信噪比时更为明显。
本书的研究为语音识别在农产品市场信息采集环境中的应用建立了一套鲁棒性方法,为今后语音识别在农业信息采集领域的应用提供了借鉴。然而,由于水平所限,编写时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正。
本书初稿完成后,得到了诸叶平、赵俊峰、王向东、周国民等人的审阅和指导,提出了很多宝贵意见,对本书质量的提高有很大帮助,在此向他们表示衷心的感谢。
本书是作者参与承担国家自然科学基金项目的部分研究成果,具有一定的理论性和实际应用性。
著者2018年3月
在线试读
章引言
节问题的提出及研究意义
农产品市场信息是发展现代农业的重要信息来源,是农产品市场分析和预警的基础数据,对保证我国农产品市场安全稳定有重要意义。农产品市场信息覆盖范围广,包含的信息内容纷繁复杂,更有学者(许世卫等,2011)提出了农产品全息市场信息的概念。农产品市场信息有其必要属性,如名称、价格;也有次要属性,如颜色、口味等,消费者所关心的农产品信息主要包括种类、购买地点、价格、产品质量、购买量等,但不同群体的关注程度有所差异。我国目前的农产品市场信息大多只包含名称、价格、销量、产地、等级等少部分信息。
针对农产品市场信息的重要性,国家相关部门和地方政府也纷纷建立了各种形式的农产品市场信息采集机制,信息的采集方式往往利用传统的人工抄录再二次录入计算机、电话报价或邮件汇总等方式来完成,但此类信息采集方法重复劳动较多,效率不高,且时效性较差。为此,很多机构和科研人员纷纷提出了信息采集的方法,开发了各种便携式的信息采集设备(李干琼等,2013;邢振等,2011;赵春江等,2013)。这些方式有自身的优点和便捷之处,提高了工作效率,但在交互性方面尚有一定的问题。一般来说,便携式设备的屏幕和按键都较小,而农产品市场信息采集的工作场所往往是在室外,容易受到强烈光线、雨雾冰雪、恶劣天气、野外环境等条件的限制,给操作带来了不便;另一方面,从人机交互的角度考虑,现有的信息采集设备主要依靠双手和视觉的配合来完成操作,但对需要人工干预的情况下进行的信息采集,因其大部分是在生产过程、操作同时进行的,传统的设备必然导致操作人员暂时中断当前的工作转而进行信息的采集,这样就会导致劳动生产效率的降低。此外,传统的信息采集设备因操作界面和提示信息的复杂等因素,对操作人员的知识水平和认知能力都具有较高的要求。
近年来,随着语音识别(Speech Recognition)技术的迅速发展,基于语音交互界面的设备也在诸多行业开始应用。语音识别可以将语音转换为文本的形式,进而进行各种形式的处理和应用。从人机交互的角度看,语音是便携式设备的人机交互方式(韩勇等,2004)。语音交互可以在用户的眼睛和双手同时操作其他设备的情况下使用,可以让注意力分散到多项事务,如用户在驾车时使用语音接听电话、车载语音导航等。另外,语音界面接口还方便残障人士的使用。例如,将语音输入作为命令控制web浏览器(李明华等,2002;舒挺等,2003;俞一彪等,2002;张先锋等,2002)和收发邮件程序(Marx,et al,1996)。Cornell大学的Raman(1994)设计了使用语音控制的科技文档阅读器和屏幕阅读工具。语音是一种高效的交流媒体,相比其他交流手段更为自然,蕴含更为丰富的信息。语音交互非常适合在信息随机呈现的并且要求用户立即采取行动的任务中,如空军座舱指令(王晓兰等,2005;肖洪源等,2013);语音交互也适合在光线不佳、空间狭小、视觉传达信息的通道收到限制的情况下使用。因此,对于小型的移动设备来讲,将语音作为输入输出的设备是合适的,I/O可以缩减为麦克和听筒。但也需要注意到,语音识别交互界面并非完全替代传统视觉—手动的交互界面,而是互为补充发挥各自的所长,以用户使用方便、自然为原则。因此,语音交互界面要符合用户完成任务所希望采用的交互方式,并且在符合使用语音交互的环境下使用(韩勇等,2004)。语音交互界面下完成的任务往往是一些比较简单的任务,其发展趋势是面向某个领域范围的中小规模词汇量任务。
虽然语音界面的交互对移动终端设备非常适宜,但识别效果仍是问题的关键所在。经过几十年的研究,语音识别有了长足的发展。在相对安静的环境中,语音识别能取得非常好的识别结果。但在噪声环境下,现有的面向非特定人的语音识别系统因受到噪声的污染,其识别性能则会急剧下降,尤其是在低信噪比的情况下,识别性能更为糟糕。一方面,造成这种低识别率的原因是实际测试环境与训练环境的不匹配,导致模型参数出现偏差。噪声鲁棒性语音识别的研究目标就是消除或尽量减少这种不匹配现象,提高识别性能。另一方面,农产品市场信息采集的作业环境非常复杂,如大型农产品批发市场、社区农贸市场、超市、农产品加工车间等,其所处的环境噪声包括人群噪声、汽车噪声、工厂机器噪声等,给语音识别带了较大的影响。而目前缺乏专门的面向农产品市场信息采集领域的专用识别引擎,通用领域的语音识别系统往往是大词汇量连续语音识别,模型存储空间较大,计算速度较慢,不适合在移动设备上使用;且通用领域的识别引擎在农产品市场采集环境下,由于识别环境与训练环境存在较大的差异,所提取的特征向量与训练时的特征出现不匹配,性能往往表现不佳。因此,本书针对农产品市场信息采集环境的噪声特点,面向非特定人的中小规模词汇量的汉语普通话连续语音识别,研究适合农产品市场信息采集的鲁棒性语音识别算法,改进现有的声学模型,以期对农产品市场信息采集的方法有所贡献。
第二节语音识别概述
语音识别就是让机器听懂人说的话,即在各种情况下,能准确地将语音信号转换为文本符号,进而执行其他的处理。语音识别是一门交叉性的新兴学科,涉及信号处理、声学技术、概率统计理论、模式识别、人工智能、语音学知识、语言学等学科。
一、语音识别的发展
语音识别技术目前已经历了半个世纪的发展。1952年贝尔实验室提取语音元音段的共振峰信息,建立了个面向特定人的孤立英文数字语音识别系统(Davis,et al,1952)。1959年,麻省理工大学林肯实验室构建了一种能识别某种语境下的10个元音的非特定人识别器(Forgie,et al,1959)。
进入20世纪60年代,语音识别技术进入快速起步阶段。日本学者板仓等人(Itakura,1970)提出了动态时间规整(Dynamic Time Warping,DTW)算法,较好的实现了语音信号在时间轴上的对准,并且给出连接词识别的相应算法。同时,卡内基梅隆大学的Reddy开创性的用动态跟踪音素方法进行连续语音识别(Reddy,1966),为今后CMU在连续语音识别方面保持抢得了先机。值得注意的是,美国国防部高级研究计划署(ARPA)也开始设立了一些庞大的研究项目,开始资助各大学以及科研单位在语音识别方面的研究。
70年代,语音识别取得了进一步的突破。动态时间规整(DTW)和线性预测编码技术(Linear Prediction Coding,LPC)(Makhoul,1975)逐渐成熟,研究人员将其成功地应用于孤立词(字)的识别,有效地解决了语音信号的特征参数提取和语音信号时间不等长匹配问题。
80年代,语音识别由孤立词转向了连续语音识别,并出现了大量的算法。该时期明显的特点是语音识别不再过多的依赖于简单的模板匹配方法,而是逐渐过渡到统计建模框架,今天多数的语音识别系统都是建立在该框架上的,不再对语音特征的提取精益求精,而是从整体平均的角度来对语音信号进行建模。这一时期,隐马尔科夫模型(Hidden Markov Model,HMM)理论和应用(Huang,et al,1990;Huang,et al,1989;Leggetter,et al,1995b;Rabiner,1989)得到广泛介绍,大大推动了连续语音识别的发展,HMM成为语音识别的主流。较为成功的系统是CMU的Sphinx系统(Lee,et al,1990),该系统在环境匹配的情况下可以识别包括977个词汇的4 200个连续句子,识别率达到958%。在语言模型方面,N元语法(Ngram)的出现使其成为大规模连续语音识别(LVCSR )中的重要组成部分。随着神经网络逐渐被深入认识,也被引入语音识别中用于模式分类。DARPA也在这一时期继续对LVCSR支持,并推出了一系列的研究计划。
90年代,语音识别的噪声鲁棒性问题逐渐受到重视,研究人员尝试了很多算法,试图来减少测试环境与训练环境的不匹配问题,造成不匹配的原因主要包括环境噪声、信道噪声、说话人生理状况、麦克风等。随着HMM的深入研究,在模型细化、特征参数提取和自适应技术方面取得了一定的发展。主要包括模型自适应如似然线性回归(Maximum Likelihood Linear Regression,MLLR)(Leggetter,et al,1995b),后验概率(Maximum APosterior,MAP)(Gauvain,et al,1994)准则,并行模型联合(Parrell Model Composition,PMC)(Gales,et al,1993a)等。用于模型参数绑定的决策树状态聚类算法进一步提升了系统的性能,并促进了实际语音识别系统的推出。如BBN的BYBLOS(Chow,et al,1987)系统,CMU的Sphinx系统(Lee,1989;Lee,et al,1988),SRI的DECIPHER系统(Weintraub,et al,1989)等。同时,众多面向个人用户的语音识别产品得到发展,如IBM公司的ViaVoice(Davies,et al,1999)、微软的Whisper系统(Huang,et al,1995)等。英国剑桥大学(Cambridge University)的研究人员开发的HMM模型工具包(Hidden Markov Toolkit,HTK),将HMM模型的训练、识别、自适应等各种算法集成为一个工具箱,该工具包因其使用方便、功能强大且开源使用,进一步促进对语音识别的研究。
进入21世纪以来,语音识别继续向广度和深度发展。音频转写(Liu,et al,2005)、多语言语音和文本分析(Soltau,et al,2005)、口语式语音识别(Spontaneous Speech Recognition,SSR)等一些前沿而富有挑战性的任务出现。另外,声学模型训练方面,区分性训练技术(Macherey,et al,2005)得到进一步发展,出现了一些摆脱传统HMM框架的声学模型(HasegawaJohnson,et al,2005;Zweig,et al,1998)。基于语音识别的一些新应用,如多模态语音识别(Dupont,et al,2000)、语音搜索(Seide,et al,2004)等开始出现并受到关注。
我国的语音识别起步较晚,但发展速度较快,特别是在汉语语音识别方面取得了可喜的成就。国内中国科学院声学研究所、清华大学、中国科学院自动化研究所、科大讯飞公司等研究机构对汉语语音识别投入了较多力量。国家863计划智能计算机主题专门为语音识别立项,同时每1~2年举行一次全国性的语音识别系统测试。为了在我国的语音识别市场占得先机,国外很多跨国公司和研究机构纷纷进入汉语语音识别领域,如先后有IBM的ViaVoice、微软公司的SpeechSDK、Intel公司的Spark30等都开始支持汉语语音识别并且提供相关的API。
当前语音识别的研究趋势是,不再单纯关注大词汇量连续语音识别的精度,而是从实际应用出发,积极探索机器对人类语音进行感知与理解的途径和方法。从整个计算领域的发展趋势看,近年的研究热点之一是普适计算,计算模式和物理位置也从传统的桌面方式逐渐向嵌入式处理为特征的无处不在的方式发展,典型的如移动计算。因此对语音处理而言,探讨在典型的移动方式下的语音感知与理解机制,实现能根据用户的语音内容及音频场景,并借助其他辅助信息(如地理位置、时间)自主的感知和理解用户的意图及情感倾向,从而提供更智能化、人性化的人机交互手段,具有重要的理论意义和现实意义。
二、语音识别的分类
经过50多年的发展,语音识别已经在诸多领域有了相关的应用,如语音输入法、语音检索、语音命令控制等。语音识别系统根据应用范围、用户对象、性能要求等有不同的分类,按照语音对象分类有孤立词识别、连接词识别、连续语音识别等;按照识别词汇的规模分为小词汇量、中等词汇量、大词汇量;按照说话人的范围来分,有特定人系统和非特定人系统。
语音识别所采用的方法也可以作为分类方法,语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。早期的语音识别系统都是按照模板匹配的原理来构造的,对每个要识别的词先建立一个特征向量模板,识别时提取输入语音的特征向量与每个模型比较,相似程度者为识别结果。为了解决语音信号的动态不固定性,板仓等人(1970)提出了著名的动态时间规整(Dynamic Time Warping,DTW)算法。但是该方法随着识别词规模的扩大就力不从心了,如大规模连续语音识别,因此必须寻求其他方法。随机模型法是目前主流的语音识别方法,其典型代表就是隐马尔科夫模型(Hidden Markov Model,HMM)。它有两个随机过程,语音信号可以看做一个随机过程,它在较短的时间段内可以看做平稳信号,而总的过程可以看做从一个稳定时段过渡到下一个稳定时段。马尔科夫链中的另一个随机过程是状态之间的转移,从观察值的角度看这个状态转移是隐含的。目前很多语音识别系统都是基于HMM模型框架的。概率语法分析法用于大长度范围的连续语音识别,但由于需要大量的语义和语法知识约束,并形成规则引入到知识库中,该方法并没有得到广泛发展和关注。
三、基于统计模型的语音识别
语音识别目前主流的做法是基于统计概率模型的,其识别过程就可以利用贝叶斯理论,根据观察值序列A选择词串W作为输出,使得后验概率P(W|A)。其基本原理如图1-1所示。
图1-1基于统计模型的语音识别框图
Fig1-1Block diagram of speech recognition based on statistical models
在连续语音识别系统中,对给定的一段语音信号提取特征后,得到特征矢量序列为A=a1,a2,…,aT,该特征矢量序列可能对应的一个词序列为W=w1,w2,…,wN,那么语音识别系统要完成的任务就是找到对应的观察矢量序列A的那个可能词序列W^。这个过程根据贝叶斯准则,后验概率可以通过条件概率P(A|W)以及先验概率P(W)计算得到:
W^=argmaxWPW/A=PA/WPWPA∝argmaxWPA/WPW (11)
其中,PW是独立于语音特征矢量的语言模型概率,表示在自然语言中词序列W出现的概率。语言模型可以帮助判断词序列是否合理,往往根据语法规则限制搜索空间,减小计算量。PA/W是观察特性矢量序列A在W下的条件概率,表示在给定的词序列W的前提下观察矢量A的条件概率,即语音信号的声学特征与词序列W的匹配程度。P(A)与词序列无关,是一个固定值。
第三节影响语音识别鲁棒性的因素
当前的语音识别系统在实验室环境下已取得了很好的识别效果,在训练环境和测试环境基本相同的条件下,其性能令人满意。对于非特定人的大词汇量语音识别,其识别率达到90%以上,而对于小词汇量的语音识别也可以达到95%左右。但这些系统的鲁棒性并不是很好,当测试环境与训练环境有差别时,或者在噪声环境中进行识别时,其性能就会急剧下降。其原因是,在测试环境中提取的语音特征与训练时不能很好的匹配,其识别性能就难以保证。如果语音识别系统在这种不匹配情况下,识别性能的下降不明显,则称这样的系统为鲁棒性(robustness)系统。鲁棒性语音识别的任务,就是研究一些实用的补偿技术以提高语音识别系统在环境变化时的性能。
虽然实验室环境下的语音识别取得了较好的效果,但距离实际应用环境尚有一定的差距,并不能简单直接的应用到实际中。很多因素(图1-2)会影响语音识别的性能,如实际环境的背景声音、传输线路的信道噪声、说话人身体状况和心理的变化,以及特定的应用领域发生变化等都会引起语音识别系统性能的改变,出现不稳定现象。
图1-2影响鲁棒性语音识别的因素
Fig1-2The main factors influencing the robustness of speech recognition
这些因素包括以下几部分。
(1)说话人。从特定说话人到非特定说话人。
(2)说话方式。从孤立词识别到连续语音识别。
(3)词汇量。从中小规模词汇到大规模词汇量。
(4)应用领域。从某个特定业务领域词汇到通用领域词汇,包括特定文法到不特定文法。
(5)环境变化。从固定环境到一般性环境。
(6)发音变化。语者因生理、年龄、疾病、情绪的影响而产生发音变化。
语音识别系统的鲁棒性问题受到研究人员的重视,虽然提出了各种噪声鲁棒性方法,但所做的研究大都有针对性的围绕某一种或两种影响因素进行展开,能够系统的、带有通用性的综合方法少之又少,目前仍旧没有统一的解决方案,因此应对不同任务和具体的应用环境,考虑采用不同的解决方法。
节问题的提出及研究意义
农产品市场信息是发展现代农业的重要信息来源,是农产品市场分析和预警的基础数据,对保证我国农产品市场安全稳定有重要意义。农产品市场信息覆盖范围广,包含的信息内容纷繁复杂,更有学者(许世卫等,2011)提出了农产品全息市场信息的概念。农产品市场信息有其必要属性,如名称、价格;也有次要属性,如颜色、口味等,消费者所关心的农产品信息主要包括种类、购买地点、价格、产品质量、购买量等,但不同群体的关注程度有所差异。我国目前的农产品市场信息大多只包含名称、价格、销量、产地、等级等少部分信息。
针对农产品市场信息的重要性,国家相关部门和地方政府也纷纷建立了各种形式的农产品市场信息采集机制,信息的采集方式往往利用传统的人工抄录再二次录入计算机、电话报价或邮件汇总等方式来完成,但此类信息采集方法重复劳动较多,效率不高,且时效性较差。为此,很多机构和科研人员纷纷提出了信息采集的方法,开发了各种便携式的信息采集设备(李干琼等,2013;邢振等,2011;赵春江等,2013)。这些方式有自身的优点和便捷之处,提高了工作效率,但在交互性方面尚有一定的问题。一般来说,便携式设备的屏幕和按键都较小,而农产品市场信息采集的工作场所往往是在室外,容易受到强烈光线、雨雾冰雪、恶劣天气、野外环境等条件的限制,给操作带来了不便;另一方面,从人机交互的角度考虑,现有的信息采集设备主要依靠双手和视觉的配合来完成操作,但对需要人工干预的情况下进行的信息采集,因其大部分是在生产过程、操作同时进行的,传统的设备必然导致操作人员暂时中断当前的工作转而进行信息的采集,这样就会导致劳动生产效率的降低。此外,传统的信息采集设备因操作界面和提示信息的复杂等因素,对操作人员的知识水平和认知能力都具有较高的要求。
近年来,随着语音识别(Speech Recognition)技术的迅速发展,基于语音交互界面的设备也在诸多行业开始应用。语音识别可以将语音转换为文本的形式,进而进行各种形式的处理和应用。从人机交互的角度看,语音是便携式设备的人机交互方式(韩勇等,2004)。语音交互可以在用户的眼睛和双手同时操作其他设备的情况下使用,可以让注意力分散到多项事务,如用户在驾车时使用语音接听电话、车载语音导航等。另外,语音界面接口还方便残障人士的使用。例如,将语音输入作为命令控制web浏览器(李明华等,2002;舒挺等,2003;俞一彪等,2002;张先锋等,2002)和收发邮件程序(Marx,et al,1996)。Cornell大学的Raman(1994)设计了使用语音控制的科技文档阅读器和屏幕阅读工具。语音是一种高效的交流媒体,相比其他交流手段更为自然,蕴含更为丰富的信息。语音交互非常适合在信息随机呈现的并且要求用户立即采取行动的任务中,如空军座舱指令(王晓兰等,2005;肖洪源等,2013);语音交互也适合在光线不佳、空间狭小、视觉传达信息的通道收到限制的情况下使用。因此,对于小型的移动设备来讲,将语音作为输入输出的设备是合适的,I/O可以缩减为麦克和听筒。但也需要注意到,语音识别交互界面并非完全替代传统视觉—手动的交互界面,而是互为补充发挥各自的所长,以用户使用方便、自然为原则。因此,语音交互界面要符合用户完成任务所希望采用的交互方式,并且在符合使用语音交互的环境下使用(韩勇等,2004)。语音交互界面下完成的任务往往是一些比较简单的任务,其发展趋势是面向某个领域范围的中小规模词汇量任务。
虽然语音界面的交互对移动终端设备非常适宜,但识别效果仍是问题的关键所在。经过几十年的研究,语音识别有了长足的发展。在相对安静的环境中,语音识别能取得非常好的识别结果。但在噪声环境下,现有的面向非特定人的语音识别系统因受到噪声的污染,其识别性能则会急剧下降,尤其是在低信噪比的情况下,识别性能更为糟糕。一方面,造成这种低识别率的原因是实际测试环境与训练环境的不匹配,导致模型参数出现偏差。噪声鲁棒性语音识别的研究目标就是消除或尽量减少这种不匹配现象,提高识别性能。另一方面,农产品市场信息采集的作业环境非常复杂,如大型农产品批发市场、社区农贸市场、超市、农产品加工车间等,其所处的环境噪声包括人群噪声、汽车噪声、工厂机器噪声等,给语音识别带了较大的影响。而目前缺乏专门的面向农产品市场信息采集领域的专用识别引擎,通用领域的语音识别系统往往是大词汇量连续语音识别,模型存储空间较大,计算速度较慢,不适合在移动设备上使用;且通用领域的识别引擎在农产品市场采集环境下,由于识别环境与训练环境存在较大的差异,所提取的特征向量与训练时的特征出现不匹配,性能往往表现不佳。因此,本书针对农产品市场信息采集环境的噪声特点,面向非特定人的中小规模词汇量的汉语普通话连续语音识别,研究适合农产品市场信息采集的鲁棒性语音识别算法,改进现有的声学模型,以期对农产品市场信息采集的方法有所贡献。
第二节语音识别概述
语音识别就是让机器听懂人说的话,即在各种情况下,能准确地将语音信号转换为文本符号,进而执行其他的处理。语音识别是一门交叉性的新兴学科,涉及信号处理、声学技术、概率统计理论、模式识别、人工智能、语音学知识、语言学等学科。
一、语音识别的发展
语音识别技术目前已经历了半个世纪的发展。1952年贝尔实验室提取语音元音段的共振峰信息,建立了个面向特定人的孤立英文数字语音识别系统(Davis,et al,1952)。1959年,麻省理工大学林肯实验室构建了一种能识别某种语境下的10个元音的非特定人识别器(Forgie,et al,1959)。
进入20世纪60年代,语音识别技术进入快速起步阶段。日本学者板仓等人(Itakura,1970)提出了动态时间规整(Dynamic Time Warping,DTW)算法,较好的实现了语音信号在时间轴上的对准,并且给出连接词识别的相应算法。同时,卡内基梅隆大学的Reddy开创性的用动态跟踪音素方法进行连续语音识别(Reddy,1966),为今后CMU在连续语音识别方面保持抢得了先机。值得注意的是,美国国防部高级研究计划署(ARPA)也开始设立了一些庞大的研究项目,开始资助各大学以及科研单位在语音识别方面的研究。
70年代,语音识别取得了进一步的突破。动态时间规整(DTW)和线性预测编码技术(Linear Prediction Coding,LPC)(Makhoul,1975)逐渐成熟,研究人员将其成功地应用于孤立词(字)的识别,有效地解决了语音信号的特征参数提取和语音信号时间不等长匹配问题。
80年代,语音识别由孤立词转向了连续语音识别,并出现了大量的算法。该时期明显的特点是语音识别不再过多的依赖于简单的模板匹配方法,而是逐渐过渡到统计建模框架,今天多数的语音识别系统都是建立在该框架上的,不再对语音特征的提取精益求精,而是从整体平均的角度来对语音信号进行建模。这一时期,隐马尔科夫模型(Hidden Markov Model,HMM)理论和应用(Huang,et al,1990;Huang,et al,1989;Leggetter,et al,1995b;Rabiner,1989)得到广泛介绍,大大推动了连续语音识别的发展,HMM成为语音识别的主流。较为成功的系统是CMU的Sphinx系统(Lee,et al,1990),该系统在环境匹配的情况下可以识别包括977个词汇的4 200个连续句子,识别率达到958%。在语言模型方面,N元语法(Ngram)的出现使其成为大规模连续语音识别(LVCSR )中的重要组成部分。随着神经网络逐渐被深入认识,也被引入语音识别中用于模式分类。DARPA也在这一时期继续对LVCSR支持,并推出了一系列的研究计划。
90年代,语音识别的噪声鲁棒性问题逐渐受到重视,研究人员尝试了很多算法,试图来减少测试环境与训练环境的不匹配问题,造成不匹配的原因主要包括环境噪声、信道噪声、说话人生理状况、麦克风等。随着HMM的深入研究,在模型细化、特征参数提取和自适应技术方面取得了一定的发展。主要包括模型自适应如似然线性回归(Maximum Likelihood Linear Regression,MLLR)(Leggetter,et al,1995b),后验概率(Maximum APosterior,MAP)(Gauvain,et al,1994)准则,并行模型联合(Parrell Model Composition,PMC)(Gales,et al,1993a)等。用于模型参数绑定的决策树状态聚类算法进一步提升了系统的性能,并促进了实际语音识别系统的推出。如BBN的BYBLOS(Chow,et al,1987)系统,CMU的Sphinx系统(Lee,1989;Lee,et al,1988),SRI的DECIPHER系统(Weintraub,et al,1989)等。同时,众多面向个人用户的语音识别产品得到发展,如IBM公司的ViaVoice(Davies,et al,1999)、微软的Whisper系统(Huang,et al,1995)等。英国剑桥大学(Cambridge University)的研究人员开发的HMM模型工具包(Hidden Markov Toolkit,HTK),将HMM模型的训练、识别、自适应等各种算法集成为一个工具箱,该工具包因其使用方便、功能强大且开源使用,进一步促进对语音识别的研究。
进入21世纪以来,语音识别继续向广度和深度发展。音频转写(Liu,et al,2005)、多语言语音和文本分析(Soltau,et al,2005)、口语式语音识别(Spontaneous Speech Recognition,SSR)等一些前沿而富有挑战性的任务出现。另外,声学模型训练方面,区分性训练技术(Macherey,et al,2005)得到进一步发展,出现了一些摆脱传统HMM框架的声学模型(HasegawaJohnson,et al,2005;Zweig,et al,1998)。基于语音识别的一些新应用,如多模态语音识别(Dupont,et al,2000)、语音搜索(Seide,et al,2004)等开始出现并受到关注。
我国的语音识别起步较晚,但发展速度较快,特别是在汉语语音识别方面取得了可喜的成就。国内中国科学院声学研究所、清华大学、中国科学院自动化研究所、科大讯飞公司等研究机构对汉语语音识别投入了较多力量。国家863计划智能计算机主题专门为语音识别立项,同时每1~2年举行一次全国性的语音识别系统测试。为了在我国的语音识别市场占得先机,国外很多跨国公司和研究机构纷纷进入汉语语音识别领域,如先后有IBM的ViaVoice、微软公司的SpeechSDK、Intel公司的Spark30等都开始支持汉语语音识别并且提供相关的API。
当前语音识别的研究趋势是,不再单纯关注大词汇量连续语音识别的精度,而是从实际应用出发,积极探索机器对人类语音进行感知与理解的途径和方法。从整个计算领域的发展趋势看,近年的研究热点之一是普适计算,计算模式和物理位置也从传统的桌面方式逐渐向嵌入式处理为特征的无处不在的方式发展,典型的如移动计算。因此对语音处理而言,探讨在典型的移动方式下的语音感知与理解机制,实现能根据用户的语音内容及音频场景,并借助其他辅助信息(如地理位置、时间)自主的感知和理解用户的意图及情感倾向,从而提供更智能化、人性化的人机交互手段,具有重要的理论意义和现实意义。
二、语音识别的分类
经过50多年的发展,语音识别已经在诸多领域有了相关的应用,如语音输入法、语音检索、语音命令控制等。语音识别系统根据应用范围、用户对象、性能要求等有不同的分类,按照语音对象分类有孤立词识别、连接词识别、连续语音识别等;按照识别词汇的规模分为小词汇量、中等词汇量、大词汇量;按照说话人的范围来分,有特定人系统和非特定人系统。
语音识别所采用的方法也可以作为分类方法,语音识别所采用的方法一般有模板匹配法、随机模型法和概率语法分析法三种。早期的语音识别系统都是按照模板匹配的原理来构造的,对每个要识别的词先建立一个特征向量模板,识别时提取输入语音的特征向量与每个模型比较,相似程度者为识别结果。为了解决语音信号的动态不固定性,板仓等人(1970)提出了著名的动态时间规整(Dynamic Time Warping,DTW)算法。但是该方法随着识别词规模的扩大就力不从心了,如大规模连续语音识别,因此必须寻求其他方法。随机模型法是目前主流的语音识别方法,其典型代表就是隐马尔科夫模型(Hidden Markov Model,HMM)。它有两个随机过程,语音信号可以看做一个随机过程,它在较短的时间段内可以看做平稳信号,而总的过程可以看做从一个稳定时段过渡到下一个稳定时段。马尔科夫链中的另一个随机过程是状态之间的转移,从观察值的角度看这个状态转移是隐含的。目前很多语音识别系统都是基于HMM模型框架的。概率语法分析法用于大长度范围的连续语音识别,但由于需要大量的语义和语法知识约束,并形成规则引入到知识库中,该方法并没有得到广泛发展和关注。
三、基于统计模型的语音识别
语音识别目前主流的做法是基于统计概率模型的,其识别过程就可以利用贝叶斯理论,根据观察值序列A选择词串W作为输出,使得后验概率P(W|A)。其基本原理如图1-1所示。
图1-1基于统计模型的语音识别框图
Fig1-1Block diagram of speech recognition based on statistical models
在连续语音识别系统中,对给定的一段语音信号提取特征后,得到特征矢量序列为A=a1,a2,…,aT,该特征矢量序列可能对应的一个词序列为W=w1,w2,…,wN,那么语音识别系统要完成的任务就是找到对应的观察矢量序列A的那个可能词序列W^。这个过程根据贝叶斯准则,后验概率可以通过条件概率P(A|W)以及先验概率P(W)计算得到:
W^=argmaxWPW/A=PA/WPWPA∝argmaxWPA/WPW (11)
其中,PW是独立于语音特征矢量的语言模型概率,表示在自然语言中词序列W出现的概率。语言模型可以帮助判断词序列是否合理,往往根据语法规则限制搜索空间,减小计算量。PA/W是观察特性矢量序列A在W下的条件概率,表示在给定的词序列W的前提下观察矢量A的条件概率,即语音信号的声学特征与词序列W的匹配程度。P(A)与词序列无关,是一个固定值。
第三节影响语音识别鲁棒性的因素
当前的语音识别系统在实验室环境下已取得了很好的识别效果,在训练环境和测试环境基本相同的条件下,其性能令人满意。对于非特定人的大词汇量语音识别,其识别率达到90%以上,而对于小词汇量的语音识别也可以达到95%左右。但这些系统的鲁棒性并不是很好,当测试环境与训练环境有差别时,或者在噪声环境中进行识别时,其性能就会急剧下降。其原因是,在测试环境中提取的语音特征与训练时不能很好的匹配,其识别性能就难以保证。如果语音识别系统在这种不匹配情况下,识别性能的下降不明显,则称这样的系统为鲁棒性(robustness)系统。鲁棒性语音识别的任务,就是研究一些实用的补偿技术以提高语音识别系统在环境变化时的性能。
虽然实验室环境下的语音识别取得了较好的效果,但距离实际应用环境尚有一定的差距,并不能简单直接的应用到实际中。很多因素(图1-2)会影响语音识别的性能,如实际环境的背景声音、传输线路的信道噪声、说话人身体状况和心理的变化,以及特定的应用领域发生变化等都会引起语音识别系统性能的改变,出现不稳定现象。
图1-2影响鲁棒性语音识别的因素
Fig1-2The main factors influencing the robustness of speech recognition
这些因素包括以下几部分。
(1)说话人。从特定说话人到非特定说话人。
(2)说话方式。从孤立词识别到连续语音识别。
(3)词汇量。从中小规模词汇到大规模词汇量。
(4)应用领域。从某个特定业务领域词汇到通用领域词汇,包括特定文法到不特定文法。
(5)环境变化。从固定环境到一般性环境。
(6)发音变化。语者因生理、年龄、疾病、情绪的影响而产生发音变化。
语音识别系统的鲁棒性问题受到研究人员的重视,虽然提出了各种噪声鲁棒性方法,但所做的研究大都有针对性的围绕某一种或两种影响因素进行展开,能够系统的、带有通用性的综合方法少之又少,目前仍旧没有统一的解决方案,因此应对不同任务和具体的应用环境,考虑采用不同的解决方法。
评论
还没有评论。