论文部分内容阅读
【摘要】手语合成是为了有助于聋哑人和听力正常人自然交流以及计算机辅助教学。通过分析手语特点,通过粒子滤波算法手语手势进行跟踪,通过跟踪结果进行有效的判断,判断出视频中的手语词与手语词之间的过渡帧,从而推动了对手语动画合成的研究和实现。
【关键词】手语合成1;虚拟人合成2;关键点3;粒子滤波算法4
0引言:
作为听障人士社交所用的手语是一种人体运动语言,通过手型辅之以面部表情和姿势构成一个稳定的表达系统。手语合成[1]就是要将自然语言文本句子,通过机器自动翻译成聋人手语,并由计算机自动生成虚拟人动画来逼真的表示出来。手语动作的研究是作为手语合成的研究的前提,首先构造人体二维骨骼模型,在此基础上作出了聋哑人手语关键动作可能手势和不可能手势的跟踪判断,在可能手势情况下实现虚拟人连续手势的变换,逼真的完成手语动作表达。
1 手语合成的相关方法和技术
1.1人体轮廓模型
人体轮廓模型[2]是将人体用一组由关节所连接的平面区域块来表现。手语主要研究手及手臂并建立其运动控制模型,手及手臂之间包含肩、肘、腕、手指四大类的关节点。由控制点、线、体来显示人体运动,并显示出控制点模型,进而得出线型,直至二维人体模型。
1.2 手势跟踪
1.2.1 基本思想
虚拟人手语是由一些单位手语词拼接而成的动画,在相邻手语词以及同一个手语词中不同词根之间若不作处理会,手在相邻词根衔接处动作变化幅度大,因此我们需要在衔接处插补一定数量的关键帧。因此对采集的手语视频进行手语词的关键帧跟踪,由跟踪结果对关键帧进行判断,是保证手语合成的前提。
1.3 粒子滤波算法概述
粒子滤波[3]通过随机样本的概率的分布,是由贝叶斯滤波器演变,并结合蒙特卡罗方法得出的一种实时推理算法。
粒子滤波算法具有卡尔曼滤波所没有的算法收敛,且计算误差小,其通过非参数化的蒙特卡罗方法实现贝叶斯滤波,用非函数形式的样本形式进行先验和后验信息的概率表述。当样本点迅速增至无穷大的时候,后验概率密度的函数形式等价于蒙特卡罗模拟特性,滤波精度可达最优。其非高斯、非线性及多模的特点,可有效预测人体位置信息。在人体运动多关节点跟踪下,可用加权粒子滤波[4]来精简计算。
1.4 算法描述
基于粒子滤波算法的人体动关节点跟踪的流程如1.1图所示:
图1.1 基于人体轮廓模型实现人体关键点跟踪的流程图
(1)视频第一帧的初始化
视频的第一帧要进行手动标注人的肘、腕、手部中心点等坐标,对粒子采样的数量由实验而定。
(2)状态转移
状态转移即粒子传播的先验概率过程,其中xt为目标在t时刻的状态,wt-1是归一化噪声量,A和B是常数:
(1.1)
(3)系统观测
对当前预测模型中的每一个状态向量的外观模型与当前图像帧的相应区域进行相似性计算,并给每一个状态向量赋一个权值。
首先将相邻关节点中任意两个粒子所处的矩形区域的颜色直方图与手工标注的第一帧的模板区域颜色直方图进行匹配比较,通过相似度计量函数得出该关节点的权值Wki。
图1.2 观测点的生成
再将相邻关节点的粒子的距离与初始帧关节长度进行比较,并计算出权值Nki。对这两个权值进行加权计算,得到第k个关节点的粒子i在此时刻的权值:
(1.2)
最后把所有的粒子权值进行归一化操作:
(1.3)
(4)跟踪结果
相应关节点中所有粒子的加权均值为关节点的最终状态,即通過预测得到t时刻第k个关键点的坐标。
(1.4)
当完成当前帧的跟踪计算后,对当前帧的后验模型进行同样的采样,得到t+1时刻的先验模型。依次类推直至最后一帧,完成了整个视频的跟踪。
2 系统设计与实现
2.1手语合成系统的框架
系统的主体框架如下图所示
图2.1 手语合成系统的主体框架
3 手语合成的关键技术
手语合成系统主要由以下四点所确立:
(1)通过数据手套等硬件设备实时采集足够详细的手语动作信息。
(2)根据关节点跟踪的原始数据计算出人体上肢关节的位置和关节点在相对坐标系中的旋转角度。
(3)将关节角度数据按照不同的关节形成运动曲线,从中提取能够代表动作的关键帧数据。
(4)插入关键帧数据实现3D虚拟人动画的自动生成。
4 结语
基于的粒子滤波算法的手势跟踪是进行手语合成的前提,通过手势跟踪有效的判断手语词与手语词之间的转折,并进行关键帧的插补,从而使虚拟人的手语表达更加逼真,实现合成手势运动的均匀平滑过度。
参考文献:
[1]郑重雨.基于运动特征的手语动画关键帧调整和插值方法的研究[D].北京:北京工业大学,2009.
[2]孙怡,王恩亮,安宏杰等.基于2-D模型的人体运动跟踪[J],中国图像图形学报,2002,7(7):625-632
[3]胡士强,敬忠良.粒子滤波算法综述[J].控制与决策,2005,20(4):362—371
[4]蒋恋华.基于粒子滤波的多目标跟踪算法的研究[D].武汉:武汉科技大学,2011
【关键词】手语合成1;虚拟人合成2;关键点3;粒子滤波算法4
0引言:
作为听障人士社交所用的手语是一种人体运动语言,通过手型辅之以面部表情和姿势构成一个稳定的表达系统。手语合成[1]就是要将自然语言文本句子,通过机器自动翻译成聋人手语,并由计算机自动生成虚拟人动画来逼真的表示出来。手语动作的研究是作为手语合成的研究的前提,首先构造人体二维骨骼模型,在此基础上作出了聋哑人手语关键动作可能手势和不可能手势的跟踪判断,在可能手势情况下实现虚拟人连续手势的变换,逼真的完成手语动作表达。
1 手语合成的相关方法和技术
1.1人体轮廓模型
人体轮廓模型[2]是将人体用一组由关节所连接的平面区域块来表现。手语主要研究手及手臂并建立其运动控制模型,手及手臂之间包含肩、肘、腕、手指四大类的关节点。由控制点、线、体来显示人体运动,并显示出控制点模型,进而得出线型,直至二维人体模型。
1.2 手势跟踪
1.2.1 基本思想
虚拟人手语是由一些单位手语词拼接而成的动画,在相邻手语词以及同一个手语词中不同词根之间若不作处理会,手在相邻词根衔接处动作变化幅度大,因此我们需要在衔接处插补一定数量的关键帧。因此对采集的手语视频进行手语词的关键帧跟踪,由跟踪结果对关键帧进行判断,是保证手语合成的前提。
1.3 粒子滤波算法概述
粒子滤波[3]通过随机样本的概率的分布,是由贝叶斯滤波器演变,并结合蒙特卡罗方法得出的一种实时推理算法。
粒子滤波算法具有卡尔曼滤波所没有的算法收敛,且计算误差小,其通过非参数化的蒙特卡罗方法实现贝叶斯滤波,用非函数形式的样本形式进行先验和后验信息的概率表述。当样本点迅速增至无穷大的时候,后验概率密度的函数形式等价于蒙特卡罗模拟特性,滤波精度可达最优。其非高斯、非线性及多模的特点,可有效预测人体位置信息。在人体运动多关节点跟踪下,可用加权粒子滤波[4]来精简计算。
1.4 算法描述
基于粒子滤波算法的人体动关节点跟踪的流程如1.1图所示:
图1.1 基于人体轮廓模型实现人体关键点跟踪的流程图
(1)视频第一帧的初始化
视频的第一帧要进行手动标注人的肘、腕、手部中心点等坐标,对粒子采样的数量由实验而定。
(2)状态转移
状态转移即粒子传播的先验概率过程,其中xt为目标在t时刻的状态,wt-1是归一化噪声量,A和B是常数:
(1.1)
(3)系统观测
对当前预测模型中的每一个状态向量的外观模型与当前图像帧的相应区域进行相似性计算,并给每一个状态向量赋一个权值。
首先将相邻关节点中任意两个粒子所处的矩形区域的颜色直方图与手工标注的第一帧的模板区域颜色直方图进行匹配比较,通过相似度计量函数得出该关节点的权值Wki。
图1.2 观测点的生成
再将相邻关节点的粒子的距离与初始帧关节长度进行比较,并计算出权值Nki。对这两个权值进行加权计算,得到第k个关节点的粒子i在此时刻的权值:
(1.2)
最后把所有的粒子权值进行归一化操作:
(1.3)
(4)跟踪结果
相应关节点中所有粒子的加权均值为关节点的最终状态,即通過预测得到t时刻第k个关键点的坐标。
(1.4)
当完成当前帧的跟踪计算后,对当前帧的后验模型进行同样的采样,得到t+1时刻的先验模型。依次类推直至最后一帧,完成了整个视频的跟踪。
2 系统设计与实现
2.1手语合成系统的框架
系统的主体框架如下图所示
图2.1 手语合成系统的主体框架
3 手语合成的关键技术
手语合成系统主要由以下四点所确立:
(1)通过数据手套等硬件设备实时采集足够详细的手语动作信息。
(2)根据关节点跟踪的原始数据计算出人体上肢关节的位置和关节点在相对坐标系中的旋转角度。
(3)将关节角度数据按照不同的关节形成运动曲线,从中提取能够代表动作的关键帧数据。
(4)插入关键帧数据实现3D虚拟人动画的自动生成。
4 结语
基于的粒子滤波算法的手势跟踪是进行手语合成的前提,通过手势跟踪有效的判断手语词与手语词之间的转折,并进行关键帧的插补,从而使虚拟人的手语表达更加逼真,实现合成手势运动的均匀平滑过度。
参考文献:
[1]郑重雨.基于运动特征的手语动画关键帧调整和插值方法的研究[D].北京:北京工业大学,2009.
[2]孙怡,王恩亮,安宏杰等.基于2-D模型的人体运动跟踪[J],中国图像图形学报,2002,7(7):625-632
[3]胡士强,敬忠良.粒子滤波算法综述[J].控制与决策,2005,20(4):362—371
[4]蒋恋华.基于粒子滤波的多目标跟踪算法的研究[D].武汉:武汉科技大学,2011