论文部分内容阅读
随着人工智能技术的不断发展,如今语音不仅仅是人类之间沟通的手段,也是人机之间交互的重要桥梁。近年来,语音识别技术飞速发展,已经逐渐应用到各个领域中。如何提高语音识别系统的识别率,成为国内外众多学者研究的问题。深度神经网络的兴起,使得传统声学模型逐渐被取代,基于神经网络的声学模型在识别率上显著提高。本文研究的主要内容是基于HMM的中文语音识别,详细讲解了语音识别技术的原理。介绍MFCC特征、FBank特征的提取流程,重点研究了语音识别中的声学模型,包括传统声学模型GMM及主流的神经网络模型DNN,并对两种模型进行了深入的分析与对比;同时提出了 DNN模型的不足之处,针对DNN无法对语音信号的长时相关性建模,提出了使用时延神经网络TDNN建模的新方案,着重研究TDNN的架构及其优化算法;对于语音识别中的解码器,本文介绍了 Kaldi工具中基于WFST静态解码网络的构建方法。最后,本文利用Kaldi开源工具包开展实验,它是一款C++编写的、支持神经网络及大部分主流算法的开源语音识别工具。本文的实验数据为1000小时AISHELL-2中文语音数据集,利用Kaldi工具分别训练了 GMM模型、DNN模型、TDNN模型,以词错误率(WER)为模型性能的评判标准。实验表明:DNN模型在连续语音识别中比GMM模型有更好的识别效果,即使是GMM中性能最好的Tri3模型,DNN依然在词错率上下降了 8.52%;而TDNN模型相比DNN模型在性能上也有所提升;同一种TDNN模型中,在输入特征上加入pitch特征和i-vector特征后,词错率依然下降了 1.12%,在测试集上达到了 91.24%的识别率。综上,在基于神经网络的声学模型中,能够对语音信号的长时相关性建模的TDNN模型比DNN模型表现更好。而对于特征输入,可以选择加入更多有效的声学特征提高语音识别系统的性能。