论文部分内容阅读
语音交互是重要的自然人机交互方式之一,这种交互方式更加接近人与人之间的交互,在人们的生活、工作、学习、娱乐等领域应用越来越广泛。但是语音信号对于环境较为敏感,而夹杂了各式各样噪声的现实环境是复杂多样的,这使得语音识别的性能下降。因此,鲁棒语音识别技术对于语音交互系统在复杂环境下的现实应用具有重要的意义,提升说话人语音内容的识别率是鲁棒语音识别技术的重点研究方向。针对语音识别在复杂环境下的鲁棒性问题,基于语音识别的语音信号处理、特征提取和模型匹配三个阶段,本论文在前人的基础上对鲁棒语音识别技术进行了探究,构建探索了几种鲁棒语音识别算法,并在对话系统中对其进行了验证。本文的主要工作如下:首先,梳理分析了鲁棒语音识别技术的发展现状,对鲁棒语音识别技术进行分类,从语音信号、特征和模型三个方面分析了鲁棒语音识别技术,总结出基于线性映射假设和基于非线性映射假设两类鲁棒语音识别技术。在基于线性映射假设的鲁棒语音识别技术方面,提出了一种估计映射参数的特征映射鲁棒语音识别算法。该算法采用最大似然估计,通过估计映射特征和训练特征GMM之间的最大似然,来确定增益矩阵和偏移矩阵从而得到新的映射特征。通过该方法引申出特征映射鲁棒语音识别算法的一般公式,该公式将上述方法中的增益矩阵和偏移矩阵抽象为一个参数矩阵W,通过对参数矩阵W的估计即可对特征进行映射。实验结果表明,该算法对于识别率的提升具有显著作用。在深入分析KL散度特征映射鲁棒语音识别算法的基础上,通过改进提出了一种基于巴氏距离的特征映射鲁棒语音识别算法,该算法引入一个先验信息对待测特征建立GMM模型,并通过最小化其与训练特征GMM模型之间的巴氏距离来估计参数W。实验证明,该算法是一种可增强语音鲁棒性的方法。在基于非线性映射假设的鲁棒语音识别技术方面,探究了基于深度回归网络的鲁棒语音识别技术,分析了其基本框架,通过分别输入复杂语音特征和干净特征,将深度网络作为一个回归模型,自动学习两个特征之间的复杂关系,并对复杂特征进行重构得到近似干净的特征。另外,设计开发了一个结合本论文研究内容且用于复杂环境的语音对话系统。运行结果表明,系统能有效提升语音识别率,使语音交互能够友好进行。最后,对论文研究工作进行了总结,提出了不足和需要进一步研究的工作。