论文部分内容阅读
随着语种识别技术的发展,在测试语句时长超过30s的前提下,如今的自动语种识别系统已基本能够达到实用所需的性能指标。然而在很多实际情况中,长达30s的测试时长要求是无法被大多数使用者所接受的,可当测试语句的有效时长减小到10s以下,现有语种识别系统的性能却又面临着较为严峻的挑战。本论文围绕语种识别系统在短时测试条件下识别性能不佳的问题展开研究,具体有以下几方面内容:针对短时语音段难以利用统计方法获得准确表示的问题,论文通过对短时特征易受噪声影响且在模型空间中表达不准的原因进行分析,提出了用样例的方法替代传统的统计方法以克服数据稀疏问题,将模版空间构造和特征编码引入语种识别系统,最终得到对由时长减少引起的相关差异更加鲁棒的短时语音段新表示,从而提高短时语种识别的性能。实验表明,采用基于样例的方法获得更具时长差异鲁棒性的语音段表示后,系统的短时识别性能有比较明显的提升。关于如何从短时语音段表示中有效挖掘语种信息的问题,论文提出了将深层神经网络作为语种识别系统的后端分类器,利用网络模型的多层非线性映射得到短时样本更具语种区分性的高层表达,从而更有效地对其进行分类。同时论文还对深层神经网络分类器在训练过程中遇到的过拟合问题展开了研究,通过引入dropout策略对其加以抑制。实验表明,使用深层神经网络作为语种识别系统的后端分类器对提高系统的短时识别性能有很大帮助。为了更进一步利用深层神经网络的高层表达能力,论文提出了将其应用于语种识别系统的特征提取,通过提取语种区分能力更强的短时语音段特征来提高系统的短时识别性能。最后论文对基于深层神经网络的语种识别特征进行了移位差分扩展以加入更多动态信息,并利用深层自动编码器对扩展特征进行降维。实验表明,深层神经网络作为特征提取器的使用非常有效地提升了语种识别系统在短时测试条件下的识别性能,所提取的特征经过差分扩展及非线性降维之后,系统的短时识别性能又得到进一步提升。