论文部分内容阅读
语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是让机器听懂人类的语言。经过半个多世纪的发展,随着ASR技术研究的不断突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如语音拨号、语音文档检索、语音聊天助手,同声翻译、智能家居、医疗服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和各个方面。近些年来,随着Siri的走红,类似Siri、搜狗语音助手这样利用语音实现控制,语义理解的系统开始大量涌现。而ASR作为这类系统的入口,很大程度上决定了这类应用的质量。没有一个好的语音识别系统做支撑,再好的助手也只能是个摆设。所以ASR作为实现人机自由交互的关键技术是非常值得我们深入研究的。本文主要分析研究隐马尔科夫模型(Hidden Markov Model,HMM)原理和深度神经网络(Deep Neural Network,DNN)原理在语音识别中的应用,并以HMM工具包(HMM Tools Kit,HTK)为平台,搭建一个IP语音拨号识别系统。本文所做的工作与贡献总结如下:1.概述语音识别的研究背景与意义以及国内外发展现状。介绍语音信号的预处理,深入研究语音识别中涉及到的关键技术。2.制作语音数据库。编写脚本生成25个随机文本,每个文本包含50句随机IP格式的英文句子,分配给25人(12男13女)录音,共录制1250句。其中1000句作为训练样本(或称为语料),250句作为测试样本。录音数据全部统一采用windows系统中常用的WAV格式保存。3.在HTK平台上搭建一个IP语音拨号系统,使用录制的1000句语料训练出四种类型的模型,单因素HMM模型,三音素HMM模型,绑定状态三因素HMM模型,以及DNN-HMM模型。分别使用这四种模型测试250句样本,对比它们各自的单词识别率和句子识别率,其中DNN-HMM模型的单词和句子识别率在四种模型中均为最高,说明神经网络模型相对于传统的隐马尔科夫模型而言,对语音的拟合性更强。但DNN-HMM模型属于深度模型,复杂度很高,相同的数据在训练和解码过程均需要较长的时间,所以它对硬件的计算能力有更高的要求。4.IP地址一般由四个字段组成(如210.52.207.2),每段所能表示的十进制数最大不超过255。根据IP地址的这一特点,制作语言模型,在语音识别过程中,加入该语言模型,训练出的四种模型识别250句测试语料的句子识别率均有大幅度提高,说明根据语音识别系统的识别任务,构建合适的语言模型可以有效地改善语音识别系统性能。