统计参数语音合成中隐马尔科夫模型建模方法的研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:haitian001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计参数语音合成,特别是其中的基于隐马尔科夫模型(Hidden MarkovModel,HMM)的语音合成,近年来经过了一个快速而蓬勃的发展期,展示出一系列优点,包括输出语音平稳、流畅,可以快速而自动地构建语音合成系统,语音参数可以灵活控制,易于实现多发音人、多发音风格、多语种的语音合成,所需的计算资源和存储资源少,等等。基于HMM的语音合成的一个关键问题,就是如何更好地训练和使用HMM,以便获得更高的合成语音音质或者其他优势。本文以统计参数语音合成中HMM的建模方法为研究对象,在定量及直观地分析了基于HMM的语音合成方法的瓶颈技术之后,本文在参数生成算法、基于决策树的上下文聚类算法、时长预测方法等方面做了一些创新或改进。具体来说,本文的研究成果如下:  一是较深入而系统地研究了参数生成算法中静态特征和多种动态特征的组合对合成语音音质的影响。  参数生成算法要解决的核心问题是如何从HMM中尽可能精确地恢复出语音参数轨迹,即如何有效地利用训练好的HMM。参数生成算法的关键是利用静态特征和动态特征间的等式约束关系,抑制HMM状态转移时参数轨迹的阶梯式跳跃,迫使待生成的参数轨迹比较平滑。这种约束关系传统上使用一二阶动态特征,但前人的研究很少系统地对比各种可能的约束关系。本文考虑了一二阶动态特征以外的更高阶的动态特征、长窗形式的一阶动态特征以及这些动态特征的多种典型组合。实验表明,继续加入三阶动态特征对提高男声的合成语音音质有所帮助。另外,逐阶加入更高阶的动态特征可以降低清浊音判决的错误率,而只使用静态特征和一阶动态特征可以同时最小化谱和基频的重构误差。  二是提出了具有表达或关系能力的扩展决策树模型。相比传统决策树,扩展决策树增加了表达逻辑或关系的能力。  在基于HMM的语音合成中,决策树是实现从文本特征到语音参数的核心映射模型。在决策树中,每一个叶节点从根节点开始通过顺次回答一系列二元问题并选择相应的分支而被一个序贯决策过程唯一地确定。因此,决定一个上下语音单元的声学参数是否属于某一个叶节点的决策条件,只能是逻辑与的形式。然而,一些语音语言学知识不能用逻辑与的形式紧凑和高效地表达出来。针对这个问题,本文提出在决策树的叶子层引入或关系,以减弱决策树只能表达逻辑与关系的限制,所得的决策树的变体称为扩展决策树。实验表明,扩展决策树可以:1)在不影响合成语音音质的情况下,极大地减少决策树叶节点的数量,也就是减小模型体积,或者;2)在决策树和扩展决策树具有相同叶节点数量的情况下,略微改善合成语音音质。  三是提出了一种结合离群点剔除的两级时长预测方法。该方法组合了极限学习机和决策树,还结合了时长离群点剔除算法。  在基于HMM的语音合成中,决策树预测的语音单元的时长倾向于过平均,因此合成语音在节奏上比自然语音平淡许多。针对这个问题,本文提出了一种两级时长预测方法。这种方法结合了极限学习机回归精度高的优点,以及在给定总时长的情况下决策树能够在声韵母内部合理分配状态时长的特点,还利用了时长离群点剔除算法以增强时长训练数据的干净程度。实验表明,针对语音合成的目的,该方法在主客观评测方面都改善了时长预测效果,显著提高了合成语音音质。此外,该方法还有不需要人工在语料库上标注语音单元时间边界的优点。
其他文献
地表三维模型和航拍全景图像在交通建设、水利工程、生态研究、城市规划以及安全防卫等诸多领域能够发挥重要作用,长期以来,研究人员对地表三维模型的生成和航拍全景图像的制备
推荐系统通过对内容和用户行为的分析,建立适当的模型,帮助用户从海量的数据中找到自己感兴趣的内容。推荐系统中用户的行为反馈包括显式反馈和隐式反馈,其中隐式反馈信息在推荐
该文首先对某热轧厂2050mm板形计算机控制系统进行消化、分析,根据系统的应用软件,提炼相相应的板形控制模型.同时,从整个系统角度出发,对整套计算机控制系统进行描述,总结出
该文主要研究了直升机地形跟随的系统要求,地形跟随飞行航迹控制器的设计;并利用模糊控制和神经网络来设计地形跟随的习控系统部分.首先对TF技术的发展作了简要的介绍,建立了
该文主要介绍了统计信号处理在通信系统中的两上重要应用--信道均衡和多用户检测,其中后者是前者在多用户通信条件下的推广.该文工作的第一个重点是对建模成FIR(有限冲激响应
该文论述了交流伺服系统的发展历史和技术现状,分析了交流永磁同步电动机的数学模型,研究了解耦控制的不同方式及其解耦控制效果,指出电流比例型解耦控制的有效性.针对伺服系
该论文在综述了神经网络及其辨识与控制方法的基础上,针对具有不确定性和时变性的非线性系统,结合自适应控制方案,提出了两种神经网络自适应控制方法,通过计算机仿真,证明了
该文对具有大滞后的工业复杂对象的控制问题,进行了评述,对各种控制方法进行了论述和比较,同时将预测控制、模糊控制的现状与发展趋势作了一些综述.现有的模糊控制方法一般适
预见控制是未来目标值及示来干扰在一定程度上为已知的情况下,充分利用这种未来情报来改善控制系统的性能的方法.预见控制主要应用于对一定程度的未来目标值及干扰已知的控制
应用管理信息系统(MIS)作为企业生产和经营管理的工具已成为企业发展的必然趋势,许多钢铁联合企业都十分迫切地要求开发应用计算机管理信息系统.由于大型钢铁企业业务和管理