论文部分内容阅读
随着多媒体技术的发展和人们对人机交互和虚拟现实技术越来越高的要求,近些年来,可视语音合成成为多媒体领域一个研究的热点和难点。先前的研究已经证明,多通道的信息融合能够增加人们对信息的理解。在语言交流的基础上,如果附加有面对面的可视信息,不仅有利于人们快速、准确地理解交流信息,而且令人感到愉悦。可视语音合成技术在电子商务,虚拟现实,友好人机交互系统以及娱乐等方面都有重要的应用。
在这个研究背景之下,本文将研究重点放在研究合成具有照片真实感的可视语音合成上。鉴于基于大样本采样技术在合成真实感上的优势,本文也将采用基于大样本采样的合成技术。
首先,在映射模型的建立上,为了避免音素和口型之间的多对一关系,采用以马尔可夫链为基础的语音序列建模方法(隐式马尔可夫链),将口型样本按照五个基本口型类进行子空间划分。
其次,语音特征的表示上,同时考虑了语音上下文的相关性,采用了联合语音特征表示的方法。在语音的特征的提取上,本文建立了一个遗传模型,从而在细粒度层次上进一步预测语音的可视信息。通过对多个子空间建立的多个遗传模型,可以更好的描述大规模语音数据中包含的多种语音本质特征,提高了映射模型的精度。
第三,在口型特征的表示上,为了去除光照对样本的影响,本文提出一种基于FAP特征点的几何参数表示模型。该模型的优点是:对在不一致的光照条件下获得的训练样本有较好的鲁棒性,能够更好的表征口型本身变化,而且相比传统的基于图像全局纹理特征的方法(如PCA特征),具有较小的向量维数,对于提高学习模型的训练速度和合成系统的合成速度都有明显的提高。