汉语语音识别中随机段模型优化算法研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:woai2011ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
隐马尔科夫模型(Hidden Markov Model,HMM)是当前连续语音识别领域应用最为广泛的声学模型,但HMM基于的语音帧之间相互独立的假设并不符合语音信号真实分布。为此,研究人员提出了几种替代模型,随机段模型(StochasticSegment Modeling,SSM)就是其中的一种。   相对于HMM,随机段模型是一种更为精确的模型,并且能更为方便地在模型中加入超音段信息。但基于随机段模型的大词汇量连续语音识别系统(LargeVocabulary Continuous Speech Recognition,LVCSR)也存在模型计算复杂度较高,解码速度较慢等制约其实用化的关键性问题。为了降低随机段模型解码时的计算复杂度并进一步提高其模型精度,本文做的主要工作有:   ·分析了隐马尔科夫模型与随机段模型的差异,将HMM系统中常用的说话人自适应方法:最大似然线性回归方法(Maximum Likelihood LinearRegression Adaptation Method,MLLR)引入到随机段模型系统中,系统识别错误率相对下降了7.5%。实验表明MLLR方法在随机段模型系统中同样能取得较好的效果。   ·提出一个初步的框架,检测出具有发音学意义的时间点,根据这些时间点分析临近语音段的边界信息和声韵母类别信息,最后将这些边界信息和类别信息用于指导随机段模型的搜索过程。实验中,两种类型的时间点能较为准确地被检测出来,并用于指导解码。在识别正确率只有轻微下降的同时,解码时间有了较大的下降。   ·考虑到随机段模型能够更好地利用超音段信息,将声调信息用于随机段模型系统中,从而提高系统的性能。该方法分析汉语普通话中的发音特性对基频轮廓的影响,并利用阶层式人工类神经网络获取发音特征。将发音特征和韵律特征一起用于建立显式的声调模型,最后将声调模型用于随机段模型的一遍解码中,并取得了较好效果。   ·考虑到由于协同发音(Co-articulation)现象引起的语音信号的易变性,训练音节内的双音子模型来初始化基于音节的声学模型的参数,从而解决音节内部声韵母之间的协同发音现象;并用随机段模型作为音节之间的过渡模型来缓解音节之间的协同发音问题。
其他文献
学位
运动平衡控制问题是机器人系统中普遍存在的问题,自平衡机器人是一类需要通过运动才能实现平衡的机器人。与一般的自平衡机器人相比,独轮自平衡机器人与地面接触点的数目降到最
中国的建筑运行能耗占社会总能耗25%以上,而其中的空调能耗占到50%以上,空调设备的运行管理需要进行节能研究。从控制理论角度分析,空调是典型的多输入多输出系统,具有非线性
不同失明年龄的盲人为我们提供了一个独特的模型来研究单感觉模态剥夺对大脑结构的影响。近期扩散磁共振成像对盲人的研究主要集中在失明年龄较早的群体,迄今为止,不同发育阶
单壁碳纳米管(Single-Walled Carbon Nanotube,SWCNT)所具有的独特电特性及尺度特性,使它成为研制新型电子单元器件的首选材料。因此,构建单壁碳纳米管纳电子器件的技术研究
随着语义网技术的不断向前发展,RDF数据已经成了一种重要网络数据。因为RDF数据本身具有语义性,蕴含着许多的关联,信息的获取就得需要计算机的推理。另外,RDF数据量呈现规模性的
双轮自平衡机器人属于轮式移动机器人,控制原理源于倒立摆。其两轮共轴,独立驱动,通过相关的控制策略实现动态平衡。双轮自平衡机器人运动灵活、结构简单,其舞步规划问题,属于机器
电动助力转向系统(EPS)是一种依靠电动机辅助转向的动力转向系统,主要由传感器、助力电动机、电动机减速器、控制器、控制策略等关键要素组成。EPS具有环保、节能、结构简单
随着电力电子技术与控制理论的发展,电力逆变器不仅能够提供三相电源而且能够提供多相电源,从而使多相电机系统在电力传动领域得到了应用。多相电机系统具有整体可靠性高,低压功率器件实现大功率传动,效率高等显著特点,但控制方法的实现过于复杂。本文采用梯形波相电流驱动的控制方法,利用Matlab/Simulink与MagNet软件,对六相感应电机的电磁转矩、转速、效率等进行了仿真研究。首先,本文阐述了梯形波相
脑是人体最复杂、最高效的信息处理系统。基于脑功能磁共振成像的研究已经发现在脑区之间存在低频信号的一致波动。这些空间上离散分柿但功能上相互作用的脑区被称作构成脑功