论文部分内容阅读
经过六十多年的技术积累和漫长等待,语音识别,以及整个语音产业终于迎来了属于自己的黄金时代。移动互联网的兴起,特别是智能移动设备的出现,改变了人机交互的方式——人们开始喜欢使用语音这种自然、便捷的输入方式。用户的这一需求推动了语音识别的商业化发展,而随之推出的大量实用产品反过来又吸引了更多用户、加速了语音识别服务的普及。这为语音识别技术的进一步发展创造了有利的条件。与过去相比,现在我们拥有以前不曾想象的海量数据和计算资源。在这一背景下,如何在系统部署阶段更好地利用大量多样化训练数据建模,在系统部署之后又如何利用大规模用户反馈数据改善系统性能成为我们关注的两个重要问题。本文围绕这两方面研究了大词汇量连续语音识别中的规整训练和无监督自适应问题,并在相关方面有所创新。 首先,针对大规模语音数据的处理,本文研究并实现了一种兼具有效性和计算效率的语音数据聚类算法,即基于i-vector的数据聚类。I-vector提供了一种简洁的语音声学特征描述方法,因此本文将其用于解决语音识别中与数据聚类相关的问题。同时,为了更有效地处理海量数据,本文分别在基于MicrosoftHPC Server和Hadoop的大规模集群上实现了i-vector等算法。区别于直接实现具体算法,本文通过使用基于TCP的方法对分布式计算的具体过程进行优化和封装,设计实现了一般性的机器学习平台。该平台不仅在提高任务处理效率的同时大幅降低了具体算法在集群上实现的难度,而且具有很好的适应性,适合用于在类似Hadoop架构的集群上实现计算密集型算法。正是因为有这些高效的算法和计算平台,本文才得以在大规模数据上展开研究。 其次,为了提高声学模型的建模效果本文深入研究了无关变异规整(IVN)方法。在IVN框架下,本文针对训练数据的聚类和分类提出了基于i-vector的声学嗅探方法。该方法可以高效地处理大规模训练数据、识别时计算开销也很低,故而支持使用更多的特征变换来发掘IVN方法的规整能力,实验也证实该方法显著提高了IVN方法的整体性能。此外,针对语音识别系统的有效利用,本文还提出了一种基于IVN的任务自适应方案,并在一个任务自适应的实验场景中验证了该方法的有效性。相同方法还可以用于用户的个性化语音识别。 最后,针对如何利用大规模用户反馈数据改善已部署语音识别系统性能这一问题,本文研究了多种无监督自适应方法。这些方法分别针对不同类型的用户,比如:对拥有大量自适应数据的经常使用者,可以使用通常的CMLLR自适应方法;对拥有少量数据的偶尔使用者,我们提出了通过在数百万说话人中寻找声学上相似的语音来扩充用户数据的自适应方法;而对初次使用者,我们提出了基于语音声学状况相似性选择合适自适应特征变换的方法。本文在一个真实的大规模数据集上验证和分析了以上方法的有效性。从结果来看,三种方法组合在一起为该问题提供了一套可能的解决方案。