论文部分内容阅读
统计参数语音合成,特别是其中的基于隐马尔科夫模型(Hidden MarkovModel,HMM)的语音合成,近年来经过了一个快速而蓬勃的发展期,展示出一系列优点,包括输出语音平稳、流畅,可以快速而自动地构建语音合成系统,语音参数可以灵活控制,易于实现多发音人、多发音风格、多语种的语音合成,所需的计算资源和存储资源少,等等。基于HMM的语音合成的一个关键问题,就是如何更好地训练和使用HMM,以便获得更高的合成语音音质或者其他优势。本文以统计参数语音合成中HMM的建模方法为研究对象,在定量及直观地分析了基于HMM的语音合成方法的瓶颈技术之后,本文在参数生成算法、基于决策树的上下文聚类算法、时长预测方法等方面做了一些创新或改进。具体来说,本文的研究成果如下: 一是较深入而系统地研究了参数生成算法中静态特征和多种动态特征的组合对合成语音音质的影响。 参数生成算法要解决的核心问题是如何从HMM中尽可能精确地恢复出语音参数轨迹,即如何有效地利用训练好的HMM。参数生成算法的关键是利用静态特征和动态特征间的等式约束关系,抑制HMM状态转移时参数轨迹的阶梯式跳跃,迫使待生成的参数轨迹比较平滑。这种约束关系传统上使用一二阶动态特征,但前人的研究很少系统地对比各种可能的约束关系。本文考虑了一二阶动态特征以外的更高阶的动态特征、长窗形式的一阶动态特征以及这些动态特征的多种典型组合。实验表明,继续加入三阶动态特征对提高男声的合成语音音质有所帮助。另外,逐阶加入更高阶的动态特征可以降低清浊音判决的错误率,而只使用静态特征和一阶动态特征可以同时最小化谱和基频的重构误差。 二是提出了具有表达或关系能力的扩展决策树模型。相比传统决策树,扩展决策树增加了表达逻辑或关系的能力。 在基于HMM的语音合成中,决策树是实现从文本特征到语音参数的核心映射模型。在决策树中,每一个叶节点从根节点开始通过顺次回答一系列二元问题并选择相应的分支而被一个序贯决策过程唯一地确定。因此,决定一个上下语音单元的声学参数是否属于某一个叶节点的决策条件,只能是逻辑与的形式。然而,一些语音语言学知识不能用逻辑与的形式紧凑和高效地表达出来。针对这个问题,本文提出在决策树的叶子层引入或关系,以减弱决策树只能表达逻辑与关系的限制,所得的决策树的变体称为扩展决策树。实验表明,扩展决策树可以:1)在不影响合成语音音质的情况下,极大地减少决策树叶节点的数量,也就是减小模型体积,或者;2)在决策树和扩展决策树具有相同叶节点数量的情况下,略微改善合成语音音质。 三是提出了一种结合离群点剔除的两级时长预测方法。该方法组合了极限学习机和决策树,还结合了时长离群点剔除算法。 在基于HMM的语音合成中,决策树预测的语音单元的时长倾向于过平均,因此合成语音在节奏上比自然语音平淡许多。针对这个问题,本文提出了一种两级时长预测方法。这种方法结合了极限学习机回归精度高的优点,以及在给定总时长的情况下决策树能够在声韵母内部合理分配状态时长的特点,还利用了时长离群点剔除算法以增强时长训练数据的干净程度。实验表明,针对语音合成的目的,该方法在主客观评测方面都改善了时长预测效果,显著提高了合成语音音质。此外,该方法还有不需要人工在语料库上标注语音单元时间边界的优点。