基于Kaldi的中文语音识别研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hua50776007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的不断发展,如今语音不仅仅是人类之间沟通的手段,也是人机之间交互的重要桥梁。近年来,语音识别技术飞速发展,已经逐渐应用到各个领域中。如何提高语音识别系统的识别率,成为国内外众多学者研究的问题。深度神经网络的兴起,使得传统声学模型逐渐被取代,基于神经网络的声学模型在识别率上显著提高。本文研究的主要内容是基于HMM的中文语音识别,详细讲解了语音识别技术的原理。介绍MFCC特征、FBank特征的提取流程,重点研究了语音识别中的声学模型,包括传统声学模型GMM及主流的神经网络模型DNN,并对两种模型进行了深入的分析与对比;同时提出了 DNN模型的不足之处,针对DNN无法对语音信号的长时相关性建模,提出了使用时延神经网络TDNN建模的新方案,着重研究TDNN的架构及其优化算法;对于语音识别中的解码器,本文介绍了 Kaldi工具中基于WFST静态解码网络的构建方法。最后,本文利用Kaldi开源工具包开展实验,它是一款C++编写的、支持神经网络及大部分主流算法的开源语音识别工具。本文的实验数据为1000小时AISHELL-2中文语音数据集,利用Kaldi工具分别训练了 GMM模型、DNN模型、TDNN模型,以词错误率(WER)为模型性能的评判标准。实验表明:DNN模型在连续语音识别中比GMM模型有更好的识别效果,即使是GMM中性能最好的Tri3模型,DNN依然在词错率上下降了 8.52%;而TDNN模型相比DNN模型在性能上也有所提升;同一种TDNN模型中,在输入特征上加入pitch特征和i-vector特征后,词错率依然下降了 1.12%,在测试集上达到了 91.24%的识别率。综上,在基于神经网络的声学模型中,能够对语音信号的长时相关性建模的TDNN模型比DNN模型表现更好。而对于特征输入,可以选择加入更多有效的声学特征提高语音识别系统的性能。
其他文献
通过对兰州市中心城区工业用地分布现状进行深入分析,从城市规划学科角度,对兰州市中心城区工业用地的去或留、留多少、留哪些、如何留、如何用及兰州市工业遗产的保护利用等
信息时代公众对通信的质量与速度有着极高的要求,为能满足这一要求,就要对现阶段的通信线路问题进行总结和分析,了解通信线路质量控制的具体工作流程和进度,以满足通信传输工
文化软实力是当前我国对外交流的重要着眼点,阐述文化软实力和高校国际交流合作的理论内涵,以及高校国际交流合作对于提升文化软实力的价值意义,在文化软实力语境下分析高校
随着经济的不断发展,交通堵塞问题日益严重。本论述设计了一种智能化的交通灯控制系统,该系统采用STC89C52为核心控制芯片,利用锁相环技术进行实时车流量检测,根据实时车流量
随着互联网用户数量的增长,应用形式不断更新以及模式的多样化、并行化,高性能计算平台集群技术更加开放和通用。这种模式为人们的生活带来的便利的同时,也给用户个人信息及
目的:探索在急诊内科应用自动心肺复苏系统的临床效果;方法:对12例病因心脏病、中毒及创伤等原因导致的心脏骤停患者应用自动心肺复苏系统救治;结果:本组12例患者救治时间最短30