复杂环境下的鲁棒语音识别技术研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:VIPT250
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音交互是重要的自然人机交互方式之一,这种交互方式更加接近人与人之间的交互,在人们的生活、工作、学习、娱乐等领域应用越来越广泛。但是语音信号对于环境较为敏感,而夹杂了各式各样噪声的现实环境是复杂多样的,这使得语音识别的性能下降。因此,鲁棒语音识别技术对于语音交互系统在复杂环境下的现实应用具有重要的意义,提升说话人语音内容的识别率是鲁棒语音识别技术的重点研究方向。针对语音识别在复杂环境下的鲁棒性问题,基于语音识别的语音信号处理、特征提取和模型匹配三个阶段,本论文在前人的基础上对鲁棒语音识别技术进行了探究,构建探索了几种鲁棒语音识别算法,并在对话系统中对其进行了验证。本文的主要工作如下:首先,梳理分析了鲁棒语音识别技术的发展现状,对鲁棒语音识别技术进行分类,从语音信号、特征和模型三个方面分析了鲁棒语音识别技术,总结出基于线性映射假设和基于非线性映射假设两类鲁棒语音识别技术。在基于线性映射假设的鲁棒语音识别技术方面,提出了一种估计映射参数的特征映射鲁棒语音识别算法。该算法采用最大似然估计,通过估计映射特征和训练特征GMM之间的最大似然,来确定增益矩阵和偏移矩阵从而得到新的映射特征。通过该方法引申出特征映射鲁棒语音识别算法的一般公式,该公式将上述方法中的增益矩阵和偏移矩阵抽象为一个参数矩阵W,通过对参数矩阵W的估计即可对特征进行映射。实验结果表明,该算法对于识别率的提升具有显著作用。在深入分析KL散度特征映射鲁棒语音识别算法的基础上,通过改进提出了一种基于巴氏距离的特征映射鲁棒语音识别算法,该算法引入一个先验信息对待测特征建立GMM模型,并通过最小化其与训练特征GMM模型之间的巴氏距离来估计参数W。实验证明,该算法是一种可增强语音鲁棒性的方法。在基于非线性映射假设的鲁棒语音识别技术方面,探究了基于深度回归网络的鲁棒语音识别技术,分析了其基本框架,通过分别输入复杂语音特征和干净特征,将深度网络作为一个回归模型,自动学习两个特征之间的复杂关系,并对复杂特征进行重构得到近似干净的特征。另外,设计开发了一个结合本论文研究内容且用于复杂环境的语音对话系统。运行结果表明,系统能有效提升语音识别率,使语音交互能够友好进行。最后,对论文研究工作进行了总结,提出了不足和需要进一步研究的工作。
其他文献
由于铁路建设施工周期长、占地面积大、资源消耗多,需要对临时建筑进行监测,以免对周围环境及生态造成较大影响。目前对铁路建设临时建筑的监测大多采用人工调查的方式,这种
探索大脑的工作机制一直以来都是神经科学领域学者的重要挑战,人脑经由外围的神经和肌肉通道,完成与外部环境的通信与信息交换。现实生活中,有很多患有运动障碍疾病的人们,失
本文采用磁控溅射法结合硫化法制备了Zn S薄膜和Zn S:Cu薄膜,并使用XRD,SEM,EDS,AFM,拉曼光谱,慢正电子束多普勒展宽能谱和UV-Vis分光光度计对样品进行晶体结构,形貌,成分,微
近年来智能化技术不断发展,推动了智能辅助系统的应用,在现代医疗中,医生运用其丰富工作经验和医学知识储备对患者进行诊治,人工智能技术越来越多的应用到医学中来帮助医生进
现代战场的指挥控制信息大多采用电磁波传输,发射电磁波的通信辐射源与战斗部队密切相关。通信辐射源运动轨迹和行为能反映部队的攻防状态,对其运动行为的认知能为目标识别和
目的建立相对静息状态下在体骨细胞的体外模型,体外模拟其体内生存的微环境,寻找骨细胞不同状态下的标志分子。方法1.采用I型胶原蛋白凝胶铺板,并接种成骨细胞系MC3T3-E1,进
随着高速公路的不断建设,路网逐渐被完善,高速公路网已经成为我国的经济命脉,收费系统作为高速公路建设的重要组成部分,记录了大量车辆的收费数据。随着大数据分析与人工智能
与传统蜂窝通信网络不同,无线ad hoc网络不具有基础的骨干设施,其节点一般通过洪泛的广播方式进行通信,这不仅会产生大量的消息延迟和冲突,甚至会产生广播风暴,从而增加网络
纳米激光,是指由纳米线等纳米光电材料作为谐振腔,在光激发或电激发下发射出的激光。发射纳米激光的激光器的尺寸往往只有数百微米甚至几十微米,直径更是达到纳米量级,是未来
近年来,随着科技的发展,各种网络平台上出现了源源不断的海量视频数据。面对庞大的数据量,处理和分析这些视频数据给计算机视觉与模式识别领域中的视频存储以及视频内容分析