论文部分内容阅读
语音是人类最直接、最有效的交流方式。随着计算机智能和情感计算的发展,人们对语音处理技术的要求越来越高。本文针对多样化的语音,提出了基于HMM的语音合成方法,实现了系统的自动训练与构建。在此基础上,研究了语音的情感分类方法以及情感语音的特征分析,通过分析情感语音在基频、时长、能量和上下文等方面的特征,总结出情感语音和中性语句之间的关联。为了合成出高质量的情感语句,特别引入了PAD三维情感模型,将离散化的情感语音扩展为可计算的量化语音。最后,通过语音合成器合成目标情感语音。本文采用PAD情感状态模型分析语音的情感特征,这为今后语音的情感处理研究提供了理论依据。通过Boosting-GMM算法来预测建模,为后续的目标情感语音合成奠定了良好的实验基础和分析依据。本文主要研究工作和研究成果如下:1.提出一种基于统计声学模型的语音合成方法,建立了一个完整的可训练的语音合成系统框架。该系统对输入的语音数据进行声学参数建模,并以训练得到的统计模型为基础构建相应的合成系统,能够很好地满足目前对多样化和高表现力的语音合成需求。2.采用了PAD情感状态模型对情感语音特征参数进行了定量分析,得出不同情感状态与PAD三个维度之间的映射关系,为后续的目标情感语音合成提供了理论基础,提高了合成语音的音质。3.通过Boosting-GMM算法进行情感预测建模。针对实验中的四种目标情感,建立四种弱预测模型。每个弱预测模型由一种基本的预测模型和其它辅助预测模型组成。实验对比了基于GMM和基于Boosting-GMM的特征预测模型的效果。由于Boosting-GMM实现了重新采样的过程,在训练集中增大了包含大预测误差的样本比例,所以基于Boosting-GMM算法对于GMM算法的预测模型有更高的预测准确率。最后通过预测模型得到的参数和STRAIGHT算法合成出目标情感语音。实验表明,通过该方法合成的情感语音具有较好的音质和自然度。