论文部分内容阅读
语音识别技术经过几十年的探索和研究,已经取得了一系列的突破和进展,一些成熟的技术正逐渐应用到实际生活中来。近年来,随着国际间交流与合作越来越频繁,消费类电子产品的迅速发展,语音作为一种方便的人机交互手段,在上述产品中有着广泛的应用前景。嵌入式系统中的非特定人孤立词语音识别也已经成为目前研究的热点之一。
本文的目标是要在嵌入式系统上实现非特定人的孤立词语音识别系统,最终的目标是要在嵌入式系统上实现非特定人、简单的孤立词的语音翻译,而要进行语音翻译,语音识别是其中关键和核心的部分,识别的性能直接决定着翻译的性能。在掌握了语音识别系统中用到的语音信号处理方法和各种识别算法以后对其核心的算法按照本文的目标进行了优化和改进,达到了预期的效果。
本文首先介绍了以HMM为框架的语音识别系统中的一些基本算法,如特征提取、隐马尔可夫模型和Viterbi搜索算法。随后较详细地介绍了基于线性词汇结构Viterbi搜索算法和基于词汇树结构的Viterbi搜索算法,通过大量的实验证明,相比之下采用基于词汇树结构的Viterbi搜索算法可以提高近一倍的识别速度,这种算法更适合于嵌入式系统。本文也训练出了两套声学模型,连续声学模型(CHMM)和半连续声学模型(SCHMM),将它们分别应用到上述基于词汇树结构的搜索算法中进行了实验,实验结果表明,使用半连续声学模型具有更好的识别性能。所以本文将选择使用半连续声学模型和基于词汇树结构的Viterbi搜索算法。
针对以上大量的实验做出的选择,本文对其中的Viterbi搜索算法进行了优化和改进,主要改进的地方有删除所有与语言模型相关的部分,对词法结构作了改进,并因此改进了词汇树的结构,最后对Viterbi搜索算法中的关键步骤进行了改进。通过实验证明,与没有改进之前的系统相比,改进以后的系统提高了识别速度和识别准确率。最后本文在嵌入式系统上构建了一个对汉语的非特定人孤立词的语音识别系统,本系统以具有上下文的声韵母为基元进行建模,特征参数为MFCC,并采用改进以后的Viterbi搜索算法进行解码。实验结果表明,系统对汉语普通话具有非常好的识别性能,系统的实时性也满足设计目标的要求。