大词汇量连续语音识别中规整训练和无监督自适应研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：peace060606

【摘要】

：

经过六十多年的技术积累和漫长等待，语音识别，以及整个语音产业终于迎来了属于自己的黄金时代。移动互联网的兴起，特别是智能移动设备的出现，改变了人机交互的方式——人们开始喜

【作者】

：

许健

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2014年期

【关键词】

：

大词汇量连续语音识别规整训练无监督自适应聚类算法特征变换

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

经过六十多年的技术积累和漫长等待，语音识别，以及整个语音产业终于迎来了属于自己的黄金时代。移动互联网的兴起，特别是智能移动设备的出现，改变了人机交互的方式——人们开始喜欢使用语音这种自然、便捷的输入方式。用户的这一需求推动了语音识别的商业化发展，而随之推出的大量实用产品反过来又吸引了更多用户、加速了语音识别服务的普及。这为语音识别技术的进一步发展创造了有利的条件。与过去相比，现在我们拥有以前不曾想象的海量数据和计算资源。在这一背景下，如何在系统部署阶段更好地利用大量多样化训练数据建模，在系统部署之后又如何利用大规模用户反馈数据改善系统性能成为我们关注的两个重要问题。本文围绕这两方面研究了大词汇量连续语音识别中的规整训练和无监督自适应问题，并在相关方面有所创新。　　首先，针对大规模语音数据的处理，本文研究并实现了一种兼具有效性和计算效率的语音数据聚类算法，即基于i-vector的数据聚类。I-vector提供了一种简洁的语音声学特征描述方法，因此本文将其用于解决语音识别中与数据聚类相关的问题。同时，为了更有效地处理海量数据，本文分别在基于MicrosoftHPC Server和Hadoop的大规模集群上实现了i-vector等算法。区别于直接实现具体算法，本文通过使用基于TCP的方法对分布式计算的具体过程进行优化和封装，设计实现了一般性的机器学习平台。该平台不仅在提高任务处理效率的同时大幅降低了具体算法在集群上实现的难度，而且具有很好的适应性，适合用于在类似Hadoop架构的集群上实现计算密集型算法。正是因为有这些高效的算法和计算平台，本文才得以在大规模数据上展开研究。　　其次，为了提高声学模型的建模效果本文深入研究了无关变异规整(IVN)方法。在IVN框架下，本文针对训练数据的聚类和分类提出了基于i-vector的声学嗅探方法。该方法可以高效地处理大规模训练数据、识别时计算开销也很低，故而支持使用更多的特征变换来发掘IVN方法的规整能力，实验也证实该方法显著提高了IVN方法的整体性能。此外，针对语音识别系统的有效利用，本文还提出了一种基于IVN的任务自适应方案，并在一个任务自适应的实验场景中验证了该方法的有效性。相同方法还可以用于用户的个性化语音识别。　　最后，针对如何利用大规模用户反馈数据改善已部署语音识别系统性能这一问题，本文研究了多种无监督自适应方法。这些方法分别针对不同类型的用户，比如:对拥有大量自适应数据的经常使用者，可以使用通常的CMLLR自适应方法;对拥有少量数据的偶尔使用者，我们提出了通过在数百万说话人中寻找声学上相似的语音来扩充用户数据的自适应方法;而对初次使用者，我们提出了基于语音声学状况相似性选择合适自适应特征变换的方法。本文在一个真实的大规模数据集上验证和分析了以上方法的有效性。从结果来看，三种方法组合在一起为该问题提供了一套可能的解决方案。

其他文献

基于精益生产的MRPII实施

该文围绕着精益生产与MRPII在生产管理上的特点,重点在企业的计划与排产的方法,详细讨论了精益生产与MRPII处理方法上的不同以及冲突之处,并针对企业实际的管理目标--利润最

学位

精益生产制造资源计划分布式计划关键设备排产

模拟移动床分段模型的研究

模拟移动床(Simulated Moving Bed)的发展从石油化工领域开始，其后是食品中的制糖工业。近些年来，其应用范围已经成功扩展到生物工程、精细化工和制药工业等领域。但是由于模拟

学位

吸附分离过程模拟移动床黑箱模型分段模型分离特性

基于图像的建筑结构场景的三维重建研究

基于图像的室外场景重建是计算机视觉研究的重要方向之一，在文化遗产保护、数字化城市建模、虚拟现实等领域有着广泛的应用。然而，由于光照变化、透视畸变、弱纹理区域等诸多因

学位

建筑场景结构分析三维重建图像处理

虚拟血管介入手术导丝导管仿真关键技术研究

近年来，心血管疾病的治疗取得了显著进展，当前最有效和最及时的治疗手段是采用微创血管介入手术(MISV)技术。但是，微创血管介入手术操作较为复杂，要求医生具有娴熟的技能和丰富的

学位

心血管疾病微创血管介入手术导丝技术导管技术建模仿真

资源型城市产业发展与结构调整研究

学位

资源型城市产业发展结构调整

双层目标非线性规划问题的迭代解法研究

该文所研究的是"多层"中的"双层",即"双层目标非线性规划问题的迭代解法".为此给出了一系列定义、引理、定理,并且对引理和定理进行了理论上的证明.最后,给出了解"双层目标非

学位

双层目标非线性迭代解法

产业结构的系统分析及应用与组合预测模型

该文主要运用系统工程的方法研究产业结构系统,并以广东省的产业系统为例进行应用性的研究,研究组合预测模型及其应用.

学位

产业结构系统投入产出技术结构模型组合预测模型

多武器平台防空系统信息融合研究

对于防空系统，来自空中的威胁包括精确制导武器、巡航导弹、武装飞机、战术飞机等。这些威胁共同的特点是低空入侵，不易被侦查发现，电子干扰困难，反应时间短促，因而难以将其击落，而

学位

多武器平台防空系统信息融合作战效果

炼油厂购油谋划咨询系统的研究

该文系统地探讨了炼油厂购油计划咨询系统的总体结构以及设计方法.在建立高水平的原油价格管理信息系统的基础上,综合分析了炼油厂进行原油采购时所涉及的各方面因素,并结合

学位

咨询系统管理信息系统预测仿真模型模糊数学风险综合评价法

铁路国际集装箱运输系统发展分析

该论文应用系统分析的原理和方法以及建立数学模型,对铁路国际集装箱运输系统进行定性、定量分析,对将来的铁路国际箱运量进行了预测.同时还采用经济分析和比较的方法对集装

学位

集装箱运输线性规划经济分析规划预测与发展对策

大词汇量连续语音识别中规整训练和无监督自适应研究

其他学术论文