论文部分内容阅读
当前可视语音合成技术研究的难点之一在于如何建立合理的口形描述模型,以及口形内唇的特征点定位。本文采取口形检测、口形分割、口形特征点初始定位和口形特征点精确定位这四个步骤,实现了对采集数据口形图像的自动分割和特征点的自动定位。
本文依据唇色与肤色的差异来构建更适合唇色提取的颜色空间,从而通过阈值处理实现了在人脸图像中自动检测口形的目的,在此基础上本文基于Fisher线性判别器,将人脸图像中的唇色像素点和肤色像素点加以区分,从而达到口形分割的目的,克服了基于固定模板口形图像提取方法对采集对象的约束。
在口形特征点定位的过程中,本文将口形特征点定位过程分为特征点初始定位和特征点精确定位两个步骤,并设计了20个特征点来表示口形内外轮廓和牙齿位置。在特征点初始定位过程中,本文首先对口形图像进行阈值处理,并将处理后的二值化图像在垂直轴和水平轴作投影,从而大致得到能够代表嘴角和上下嘴唇外轮廓的四个特征点,然后设计圆心模板得到口形的外部轮廓,最后依据经验值得到口形的内部轮廓。在特征点精确定位过程中,本文基于经典的主动形状模型ASM,提出不等角度、不等步长建模策略,从而更加合理地建立起反映口形形状变化规律和灰度分布规律的局部灰度模型;在搜索过程中,本文提出双层ASM策略,利用训练得到的局部灰度模型进行搜索,从而得到理想的匹配结果。本文采取的口形特征点定位方法将整体口形库进行同类划分,避免了差异较大口形间的相互影响,从而提高了主动形状模型定位方法的鲁棒性,同时也在很大程度上提高了内唇定位的准确性。