论文部分内容阅读
与机器进行语音交流,让机器明白人类说什么,这一直是人们梦寐以求的事情。语音识别的目的就是让机器听懂人类口述的语言,听懂就是机器通过识别和理解过程将人类的口述语言转化为相应的书面语言并能对其所包含的要求、命令作出正确的反应。
语音识别技术是一门多学科交叉的新兴学科技术,它涉及到声学、语音学、生理学、统计学和模式识别理论、信息理论与计算机学科、应用心理学、数字信号处理技术等多个学科领域的研究。语音识别技术经过近半个世纪的发展,己日趋成熟,内容也越来越丰富,然而无论人们在为让机器听懂并理解人类语言方面花了多少努力,人们距离让机器能够理解任何人口述任何内容的目标还很远。语音识别技术的产品已经走入了各行各业,比如在金融、商业、工业、文化、教育等领域已经体现出了其强大的应用前景。各种语音查询处理、语音控制产品在不同程度上改变着人类的生活方式。语音识别分类广泛,与连续自然语音识别的应用难度不同,以孤立词识别为基础的语音指令识别系统已经开始走向实用化。
本文正是基于对语音识别的强大应用背景的吸引及其实用性,就简单的非特定人孤立词语音指令识别系统的基本原理与方法进行了详细的分析和讨论,并对HMM建模的语音识别的具体应用的技术细节进行探讨,希望能在此领域有所贡献。
本文介绍了语音识别的发展历史与研究现状,对语音识别的定义、原理、系统的分类进行了概述,然后针对语音的声学模型和语言模型,语音信号在时域和频域上的分析,如先要将语音信号数字化,然后对此数据进行预处理、分帧,加窗,再通过双门限法进行端点检测,并提取系统的MFCC特征参数等方面的做了详细的介绍和各种方法的比较。接着重点介绍了HMM的定义及其研究中的三个问题和相应的解决方法的算法,如前向-后向算法、Viterbi算法和Baum-Welch算法也进行了说明,对HMM在应用时的结构选择和训练准则进行了探讨。然后给出了一个基于HMM的小字符集的孤立词语音识别系统的初步实现,在Windows平台上仿真和编写了预处理、端点检测、特征参数提取、语音模板训练、隐马尔可夫模型识别程序模块,实现了语音识别的各个过程,并给出一个简单的孤立词识别系统的应用。此系统最后的结果是对同定词汇表中的词汇进行模式匹配,匹配成功则提示正确,否则提示输入错误的信息,以这个作为结果输出。