论文部分内容阅读
汉语连续数字语音识别在现实中具有非常广泛的应用前景,在电话与电信系统的自动语音拨号、身份证号码证实、智能家电中用于电视频道和空调温度的遥控等多方面都有着重要的应用价值。汉语连续数字语音识别是语音识别中的一个重要分支,其主要难点在于,首先不确定数字串的长度,很难准确判别连续数字串中的字间边界;其次连续数字串中的数字是任意组合的,没有可以借鉴的语法知识;再有汉语数字自身的发音特点导致识别困难,如:数字语音间的混淆程度高,汉语连续数字串中各个数字的协同发音现象较严重等。此外,语音通信中不可避免地会受到说话人差异、线路干扰、环境噪声等的影响,引起信号失真,导致识别系统的鲁棒性相当脆弱。本课题研究主要包括两个方面:(1)采用全局声学结构描述的连续数字语音识别。依据描述语音内在关系的、对传输和处理过程中的线路噪声和说话人变化具有鲁棒性的全局声学结构AUS,提出适合于连续数字语音识别的双层结构化语音模型匹配策略,在没有可以借鉴的语法知识情况下,不需要大量的训练模板,只要使用较少的单个数字语音训练数据就可以实现任意长度的连续数字语音识别,且不需要充分的训练语料和通用的信道归一化技术,解决目前语音识别和连续数字语音识别中存在的说话人差异性等的鲁棒性问题。(2)采用直方图均衡的语音识别鲁棒性研究。在语音识别中,加性噪声也是导致系统性能下降的重要原因。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。