论文部分内容阅读
作为非语言交流的一种形式,表情是人类情感表达的重要方式。深入研究人类面部表情,对于理解人类内心心理和情绪状态具有极其重要的意义。随着科学技术不断发展,面向视频序列的表情识别技术有着越来越广泛的应用。表情实质上是一种人类情绪引发的面部表观变化,包含着一个变化过程,;由于静态人脸图像包含的表情信息有限,动态的图像序列承载着更加丰富的表情上下文信息,更符合人类面部表情的产生机理,从而对其描述的更加真实精确。本文针对视频序列表情识别进行研究,从如何有效地提取视频序列的时空域信息入手,提出若干方法,并在国内外公认的表情数据库验证所提方案的有效性。本文的主要工作包括如下两个方面:(1)表情的本质是情绪引发的面部区域的运动过程,因此动态特征更适合描述表情。针对动态视频序列表情识别过程中,静态特征描述子不能够有效反映面部表情信息变化的问题,本文提出了一种融合动态纹理信息和运动信息的表情识别方法,在静态描述子韦伯局部特征(Weber Local Descriptor,WLD)的基础上,引入时间维度,提出了一种时空韦伯局部特征(Spatial-Temporal Weber Local Descriptor,STWLD),以增强对视频时空域信息的描述能力。同时,利用分块光流直方图特征(Block-based Histogram of Optical Flow,BHOF)描述相邻序列帧之间人脸区域的运动信息。最后,利用SVM对融合后的动态纹理信息和运动信息进行表情分类。实验结果表明该方法相比单一特征描述,具有更好的表情识别效果。(2)针对手工特征提取方法将特征提取和分类识别两个阶段分开研究和运算,各个阶段相互独立,不利于算法的优化和识别性能提高的问题。本文采用深度学习方法进行表情识别,提出一种基于并行卷积神经网络的视频表情识别方法。鉴于原始CNN未考虑时间维度信息,引入时间维度,构建一个3D卷积神经网络结构,以提取视频序列局部时域信息;此外,为弥补网络提取全局时域信息的不足,加入CNN-RNN网络,根据RNN的迭代特性,利用视频序列前帧信息对后续帧的影响,有效提炼时间相关信息,从而对视频全局时域信息进行描述。两种神经网络融合视频序列局部和全局时域信息,有效增强了对视频表情序列信息的描述能力。实验结果表明,该方法优于单一网络和相关文献中的方法,有效增强了识别能力。