论文部分内容阅读
隐马尔科夫模型(Hidden Markov Model,HMM)是当前连续语音识别领域应用最为广泛的声学模型,但HMM基于的语音帧之间相互独立的假设并不符合语音信号真实分布。为此,研究人员提出了几种替代模型,随机段模型(StochasticSegment Modeling,SSM)就是其中的一种。
相对于HMM,随机段模型是一种更为精确的模型,并且能更为方便地在模型中加入超音段信息。但基于随机段模型的大词汇量连续语音识别系统(LargeVocabulary Continuous Speech Recognition,LVCSR)也存在模型计算复杂度较高,解码速度较慢等制约其实用化的关键性问题。为了降低随机段模型解码时的计算复杂度并进一步提高其模型精度,本文做的主要工作有:
·分析了隐马尔科夫模型与随机段模型的差异,将HMM系统中常用的说话人自适应方法:最大似然线性回归方法(Maximum Likelihood LinearRegression Adaptation Method,MLLR)引入到随机段模型系统中,系统识别错误率相对下降了7.5%。实验表明MLLR方法在随机段模型系统中同样能取得较好的效果。
·提出一个初步的框架,检测出具有发音学意义的时间点,根据这些时间点分析临近语音段的边界信息和声韵母类别信息,最后将这些边界信息和类别信息用于指导随机段模型的搜索过程。实验中,两种类型的时间点能较为准确地被检测出来,并用于指导解码。在识别正确率只有轻微下降的同时,解码时间有了较大的下降。
·考虑到随机段模型能够更好地利用超音段信息,将声调信息用于随机段模型系统中,从而提高系统的性能。该方法分析汉语普通话中的发音特性对基频轮廓的影响,并利用阶层式人工类神经网络获取发音特征。将发音特征和韵律特征一起用于建立显式的声调模型,最后将声调模型用于随机段模型的一遍解码中,并取得了较好效果。
·考虑到由于协同发音(Co-articulation)现象引起的语音信号的易变性,训练音节内的双音子模型来初始化基于音节的声学模型的参数,从而解决音节内部声韵母之间的协同发音现象;并用随机段模型作为音节之间的过渡模型来缓解音节之间的协同发音问题。