基于数据驱动的可视语音合成研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:nannana001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
可视语音合成技术的研究大大拉近了人机交互的距离,它不仅能提高人机交互的和谐性,还能改进交互识别和表达的准确性,可广泛地用于虚拟现实、虚拟主持人、虚拟会议、电影制作、游戏娱乐等很多领域。随着可视语音合成技术的逐步成熟,研究者们开始将研究重点转向以下两个方面:1)如何在人脸动画中融入其他的非语言信息,使合成的人脸不仅具有局部的唇动信息,而且能够做到自然的表情和头部运动,使人脸动画从“僵硬”走向“生动”,生成具有表现力的可视语音;2)如何在数据库大小与真实感之间进行平衡,在不降低合成效果的前提下,减小数据库大小,提高合成系统的灵活性及真实感。   本文的研究按照以上思路展开,在已有的可视语音合成系统的基础上,通过对汉语中的可视韵律进行分析,采用了基于数据驱动模型的方法,在原有的系统中融入了非语言信息,建立了一个更加具有表现力的汉语文本-可视语音转换系统。本文首先简要介绍了可视语音合成的研究背景和研究内容,然后按照系统建立的三个主要部分分别阐述主要工作内容:   1)研究了汉语表达中,中性情感状态下朗读语气时,韵律词边界对头部运动的影响以及音素发音本身对头部运动的影响。得到了关于双字韵律内部的头部运动规律,总结了对头部运动影响较大的抬头音素以及每句话发音前的头部初始化运动规律,为后期的可视韵律融合提供了理论支持;   2)建立了多个适用于不同应用的基于MPEG-4标准的多模态数据库。使用运动实时捕获仪建立了CASIA多模态数据库;并从多模态数据库中分别分析、提取了基于MPEG-4标准的人脸运动特征,通过FAP参数提取方法,去除了大量的数据冗余信息,并利用可变形模板的方法增强了捕获数据的鲁棒性;   3)实现了基于动态基元选取的映射方法进行文本到可视语音的转换。采用基于数据驱动的方法合成控制参数,经过后期的重采样和平滑处理,输出合成的人脸运动特征参数,驱动MPEG-4网格动画模型构建一个汉语可视语音合成系统。
其他文献
网络流量监测对于网络流量计费、资源规划、流量控制和流量工程等至关重要。随着Internet的快速发展,带宽不断增加,高速链路对实时网络流量监测提出挑战。由于监测设备软硬件性
随着人体运动捕获设备的发展和普及,以及深度摄像机在室内交互应用中的快速发展,人体运动识别与标注及相关技术在动画制作、电影特效以及交互娱乐等多项领域中发挥了越来越重要
随着半导体技术的发展,片上多核处理器以其高能效、高性能、低设计复杂度等诸多方面的优势已经成为微处理器发展的未来方向。缓存一致性协议是多核处理器中的一项核心技术。它
随着智能仪表、网络技术和数字通信技术的发展,现场总线和工业以太网技术在工业现场得到了广泛的应用。同时面对国内工业生产的安全现状,基于总线技术的控制系统越来越多地被用
随着互联网,特别是WEB2.0的快速发展,网络数据爆炸式增长。每天都有大量UGC(User Generated Content)网络内容产生和发布,怎样从浩大的网络数据中提取出有价值的信息,为进一步分
传统的激光引信设计和测试需要进行大量的实弹演练,为了克服由此造成的高耗费、低效率问题,本文设计并实现了一个基于虚拟现实技术的激光引信数字化仿真平台,用于辅助激光引信的
城市公交系统是与城市居民日常生活联系最为紧密的环节之一,甚至在一定程度上决定着城市居民的生活方式。城市公交查询能够帮助出行者快速地选择出行路径、换乘路线等,既提升了
查询优化是数据库管理系统设计和实现所采用的一项重要技术,也是直接影响数据库系统性能的一个重要因素,当前所有商用数据库都成功采用了这项技术。关系数据库系统和非过程化的
当今互联网信息纷繁复杂,搜索引擎为互联网用户提供了良好的信息搜索体验。而搜索引擎的查询词补全技术又进一步提高了搜索引擎质量,为用户提供了更优质的搜索服务。目前查询
中国民政部已于2003年成功实施了“省级行政区域界线信息管理系统”,并在湖北省、吉林省、山东省等省市自治区试点开展行政区域界线信息管理系统的建设,其中作为主要目标成果的