基于双层学习模型的可视语音合成系统研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:jicaomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的发展和人们对人机交互和虚拟现实技术越来越高的要求,近些年来,可视语音合成成为多媒体领域一个研究的热点和难点。先前的研究已经证明,多通道的信息融合能够增加人们对信息的理解。在语言交流的基础上,如果附加有面对面的可视信息,不仅有利于人们快速、准确地理解交流信息,而且令人感到愉悦。可视语音合成技术在电子商务,虚拟现实,友好人机交互系统以及娱乐等方面都有重要的应用。 在这个研究背景之下,本文将研究重点放在研究合成具有照片真实感的可视语音合成上。鉴于基于大样本采样技术在合成真实感上的优势,本文也将采用基于大样本采样的合成技术。 首先,在映射模型的建立上,为了避免音素和口型之间的多对一关系,采用以马尔可夫链为基础的语音序列建模方法(隐式马尔可夫链),将口型样本按照五个基本口型类进行子空间划分。 其次,语音特征的表示上,同时考虑了语音上下文的相关性,采用了联合语音特征表示的方法。在语音的特征的提取上,本文建立了一个遗传模型,从而在细粒度层次上进一步预测语音的可视信息。通过对多个子空间建立的多个遗传模型,可以更好的描述大规模语音数据中包含的多种语音本质特征,提高了映射模型的精度。 第三,在口型特征的表示上,为了去除光照对样本的影响,本文提出一种基于FAP特征点的几何参数表示模型。该模型的优点是:对在不一致的光照条件下获得的训练样本有较好的鲁棒性,能够更好的表征口型本身变化,而且相比传统的基于图像全局纹理特征的方法(如PCA特征),具有较小的向量维数,对于提高学习模型的训练速度和合成系统的合成速度都有明显的提高。
其他文献
大数据计算和分析系统作为一种计算机科学发展到一定阶段的必然产物已经吸引了各行各业的关注。大数据的价值在于对海量数据的存储,另一方面在于对数据的分析和处理工作。海
本文在对检索系统关键技术进行研究的基础上,主要实现了一个以统计分词改进算法为基础的网络信息检索系统。该系统通过网页内容提取技术对网页进行处理,形成纯文本形式,并通过中
语义Web服务是结合语义Web和Web服务两方面技术的一个新的研究课题。传统的Web服务技术缺乏计算机可理解的语义,限制了Web服务的自动化,结合了语义Web技术和Web服务技术的语义W
网格通过整合分散的计算、存储和通信资源,为虚拟组织中的成员提供了广泛的资源共享。网格市场化能够更好地加速网格的发展。然而,在当前的网格系统中,市场理论的应用主要聚焦于资源管理和任务调度,而非网格市场交易平台。通过网格市场交易平台,具有空闲资源的组织能够出售资源并取得相应的收益;需要资源的组织能够使用其他组织提供的网格资源,以减少投入。网格市场交易平台能够使资源得到更大程度的利用。为了更好地建立网格
随着网络技术和网络应用的发展,通信技术的发展也越来越迅速,通信协议也需要提供更多的功能并越来越复杂。另外伴随网络应用的不断增加,通信协议也提供了扩展功能来满足网络应用
软件行业的工业化趋势导致了软件构件的产生。能够像硬件系统那样,将部分软件组合起来构建软件系统,一直是软件行业多年来追求的目标。可以说,软件构件技术的出现是对传统软
以往逆半调研究较少关注颜色空间和人眼视觉系统对逆半调算法的影响。本文在总结影响逆半调处理的视觉特征以及颜色空间模型的基础上,提出了基于人眼视觉特性的彩色逆半调算法
目前的网络教学系统大多通过网页发布和一些交流工具来开展教学活动,基本上是Internet技术在教学上的简单应用。他们主要提供一些教学资源,学习的动态过程无从体现,没有发挥教师
本文在学习传统网络拓扑测量知识和理解P2P网络和传统网络差异的基础上,提出了在P2P网络上进行拓扑测量研究的对象应该是对等节点的角色和对等节点间的交互协议,这些不同于传统
人工生命的研究是当前的研究热点之一。贝叶斯网模型也以强大的知识表达和推理能力成为目前数据挖掘领域中的一项重要的工具。本文主要研究贝叶斯网在基因选择的进化过程中的