可视语音的口形特征点定位算法研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:cxg1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前可视语音合成技术研究的难点之一在于如何建立合理的口形描述模型,以及口形内唇的特征点定位。本文采取口形检测、口形分割、口形特征点初始定位和口形特征点精确定位这四个步骤,实现了对采集数据口形图像的自动分割和特征点的自动定位。 本文依据唇色与肤色的差异来构建更适合唇色提取的颜色空间,从而通过阈值处理实现了在人脸图像中自动检测口形的目的,在此基础上本文基于Fisher线性判别器,将人脸图像中的唇色像素点和肤色像素点加以区分,从而达到口形分割的目的,克服了基于固定模板口形图像提取方法对采集对象的约束。 在口形特征点定位的过程中,本文将口形特征点定位过程分为特征点初始定位和特征点精确定位两个步骤,并设计了20个特征点来表示口形内外轮廓和牙齿位置。在特征点初始定位过程中,本文首先对口形图像进行阈值处理,并将处理后的二值化图像在垂直轴和水平轴作投影,从而大致得到能够代表嘴角和上下嘴唇外轮廓的四个特征点,然后设计圆心模板得到口形的外部轮廓,最后依据经验值得到口形的内部轮廓。在特征点精确定位过程中,本文基于经典的主动形状模型ASM,提出不等角度、不等步长建模策略,从而更加合理地建立起反映口形形状变化规律和灰度分布规律的局部灰度模型;在搜索过程中,本文提出双层ASM策略,利用训练得到的局部灰度模型进行搜索,从而得到理想的匹配结果。本文采取的口形特征点定位方法将整体口形库进行同类划分,避免了差异较大口形间的相互影响,从而提高了主动形状模型定位方法的鲁棒性,同时也在很大程度上提高了内唇定位的准确性。
其他文献
本论文首先介绍了网格计算技术及其应用发展前景,重点讨论了在数据网格中的资源管理和调度(RMS),解决如何管理各种异构、地理分散的资源问题。比较当前几种主要的市场模型,分析
目前国际上存在两大系列视频编码标准:MPEG-4和H.264,两者都具有高效的编码效率,并在产业化方面占据了先机。中国自主知识产权的数字音视频编解码标准视频部分(AVS1.0)在2006年3
现代意义上的垃圾邮件产生于1994年,当时美国人Cantor和Siegel把一封“绿卡抽奖”的广告信发到他们可以发现的每个新闻组,这在当时引起了轩然大波,他们的“邮件炸弹”让许多服务
随着计算机和网络信息技术的发展,整个社会对医院医疗质量和服务水平的需求逐渐提高,建设数字医院(DigitalHospital,DH)已经成为医院今后发展的必然趋势。 为了推进医院医疗
诸如银行、电信等行业都有着业务集中、数据集中、大业务量、业务连续性强的特点。数据量的急剧增长对数据的存放、管理和使用提出了挑战。目前,分级存储管理(HSM)是解决这种
本文根据国内电信企业经营分析的现状,参照规范的电信企业信息化建设标准,设计了一个电信企业业务经营分析系统,实现了部分功能模块。本文分为以下几部分内容: 第一章阐述了国
本文的重点是研究有效的电信经营数据质量的管理、过程控制和评估方法。 首先介绍了数据质量的理论和电信业务BI系统,并阐述了数据仓库产生脏数据的原因。研究了高质量数据
学生信息管理系统软件是一个能够通过提供先进的搜索功能、用不同的搜索选项来生成清晰的记录视图,并且允许学生进行比对、修正学生数据的重要应用程序。这一系统软件为许多高
随着互联网在当今世界经济中变得愈来愈重要,网络安全也日渐成为不容忽视的问题。由于因特网本身在设计上的开放性,使其极易受到攻击。因此,提高安全意识,加强安全措施更显得尤为
学位