基于数据驱动的混合语音合成方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：zgs352262

【摘要】

：

近年来，随着语音合成的发展，基于统计声学建模的基元选取系统得到了越来越多的研究者的关注。基于隐马尔柯夫模型(Hidden Markov Model，HMM)的混合语音合成综合了基于HMM的统计

【作者】

：

刘善峰

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

混合语音合成系统自然度深度学习法数据驱动隐马尔柯夫模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着语音合成的发展，基于统计声学建模的基元选取系统得到了越来越多的研究者的关注。基于隐马尔柯夫模型(Hidden Markov Model，HMM)的混合语音合成综合了基于HMM的统计参数语音合成的稳定性的特点与传统拼接合成高自然度的特点，合成出的语音较基于HMM的参数语音合成与传统拼接合成都有了一定的提高。现阶段，基于统计参数的混合语音合成研究仍处于起步阶段，存在着较多的不足之处，也没有一个较为完善的可市场化的系统。本文以研究混合语音合成为研究对象，以提高韵律表现、合成音质量与系统运行速度为出发点，从预选算法、基元挑选算法、代价计算方法与指导模型建模方法出发展开了深入的研究。本文的具体研究工作与成果如下:　　第一章是绪论，在这一章，我们回顾了语音合成的研究历史，并对语音合成方法的发展历程进行了一定的介绍，并提出了我们详细的研究目标。　　第二章首先介绍了波形拼接系统相关的概念与流程，我们致力于提升波形拼接系统的合成语音的韵律表现，提出了一种基于文本特征的波形拼接合成方法。我们脱离了传统拼接合成中用机器学习方法预测声学参数指导选音的框架，采用待合成语句经过文本分析之后得到的文本特征来指导选音，采用决策树与线性回归算法相结合的M5P算法进行相关文本特征权重的预测;并且在预选阶段，我们采用了一种分层预选的方法，提高了系统的运行速度。特别是分层预选中的时长预测模型，进一步保证了所选基元在时长上的稳定性。实验证明，基于文本特征的波形拼接系统在自然度上有了很大的提高。　　第三章将重点介绍基于HMM的混合语音合成系统并提出了我们自己的系统。在这一章，我们首先介绍了基于HMM的混合语音合成，介绍了相关的HMM的声学建模与基于HMM的混合语音合成的系统框架，并详细介绍了几个典型的基于HMM的混合语音合成系统。在此基础上，我们提出了一种基于数据驱动的混合语音合成方法。这种方法结合了上一章的实验结果，将基于文本特征的多元线性回归模型用作基元的预选，生成预选代价;目标代价计算时，我们用原始基元的真实声学参数估算出一个模型，并计算该估算模型与指导模型之间的KLD，结合预选代价，作为最终的目标代价;通过相关的实验证明了该方法比传统基于HMM的混合语音合成系统在合成音质与自然度上有了很大的提升。在此基础上，我们优化了该系统，提出了一种基于KLD与似然值的单元挑选系统，目标代价分为三部分组成:模型间的KLD、基于文本特征的文本预选代价与候选基元与指导模型间的似然值。该方法进一步提升了系统合成语音的自然度。　　第四章从基于统计模型的混合语音合成中的指导模型出发，提出了一种基于深度学习方法的混合语音合成系统，该系统在建模精度上比传统混合语音合成的基于HMM-GMM模型有了一定的提升，作为指导模型进行选音时，合成语音也有一定程度的提升。　　第五章在对全文工作进行了总结，并对未来的工作开展提出了方向。

其他文献

减摇鳍神经网络控制方法研究

该论文选择神经网络控制方法用于减摇鳍控制系统,即当工况改变时,依据一定的原则,在线自动调整神经网络控制器自身的参数,使其在各种情况下都能起到最优的控制效果.该论文所

学位

神经网络神经元控制监督控制减摇鳍控制系统横摇运动仿真对比仿真

挠性陀螺连续测斜技术的研究

研制连续测量测斜测向仪的目的是为了提高油田的勘探效率,从而提高生产率.该文首次综述了陀螺测斜理论、方法及发展概况.在分析了静态单点测斜理论的基础上建立了连续测斜数

学位

测斜陀螺仪加速度计卡尔曼滤波

新产品市场扩散模型和最优营销战略的研究

从微观方面看,企业的新扩散与其经济利益密切相关,"有效扩散"是企业新产品扩散的主要话题,即在企业目标利润最大化前提下使企业的新产品尽快扩散.然而,宏观和微观层面的研究

学位

新产品扩散模型博弈论最优化营销

一个文本有关的说话人确认系统

该文实现了一个文本有关的说话者确认系统,并对系统中的语音库建立、语音分割、端点检测、特征提取、模型建立和识别各个子模块都进行了详细的描述,给出了具体的相应算法.然

学位

说话人识别文本有关隐马尔柯夫模型矢量量化码本MFCC

基于模糊逻辑系统的故障诊断方法研究

该文利用了模糊逻辑系统能逼近任意非线性函数和处理语言信息的能力,主要在以下几方面进行了深入的研究.首先,介绍了模糊逻辑系统的基础理论,分析了应用中存在的一些问题,并

学位

模糊逻辑系统故障诊断故障分类

永磁直线同步电动机驱动的矿井提升控制系统的研究

该文在合理假设的基础上,建立了永磁直线同步电动机基于d-q轴系的数学模型,深入地分析了其各种运行特性和控制方式,在此基础上,提出了基于动子磁场定向的矢量控制方式,并设计

学位

伺服控制系统提升系统永磁直线同步电动机矢量控制神经-模糊控制

航姿参考系统分析与研究

该课题来源于工程实际项目,属于惯性导航技术,目的是研制出一种应用光纤陀螺仪的体积小、重量轻、中等精度、价格适中的捷联航姿系统.惯性导航技术是一门综合性技术,用于对运

学位

捷联惯导姿态算法误差分析陀螺

现代企业系统柔性及其评价方法的研究

柔性在国外有很多定性方面的研究,但国内尚属起步阶段,该文在柔性研究中首先从宏观的角度针对企业生产系统、管理系统来研究影响企业系统柔性的因素进行系统进分析,在此基础

学位

企业柔性生产系统经营管理系统评价方法

并行多机成组工作调度问题的研究

该文研究了并行多机成组工作调度问题的特性及其解决方法,并进一步探索将其应用于生产实践中的可能性.其目的在于从理论和实践上寻找解决并行多机生产调度问题的有效途径,为

学位

生产计划并行多机成组工作启发式算法拟实制造生产调度

两级驱动伺服系统的控制算法研究

随着伺服系统对控制精度、响应速度以及鲁棒性要求的不断提高，传统单级驱动伺服系统无法同时兼顾上述性能要求，因而两级驱动伺服系统得到了很好的发展和广泛的应用。　　本课题

学位

伺服系统两级驱动PID控制前馈控制分数阶控制

基于数据驱动的混合语音合成方法研究

其他学术论文