论文部分内容阅读
随着科学技术的发展,人脸表情识别在计算机视觉领域越来越重要,在心理治疗、在线教育和人工智能交互等方面有很广泛的应用。从人脸表情识别的研究发展路线来看,大致可以分为两类,一类是基于分类器的方法,另一类就是端到端的深度学习方法。传统的人脸表情识别方法可以分为人脸检测、人脸关键点定位、特征提取和人脸表情识别四个步骤,前两个任务已经各自成为一个必要的研究领域。关于人脸的特征提取、特征选择以及表情分类算法是人脸表情识别算法的核心。把特征提取和表情识别两个步骤合并共同学习的方法,可以自动学习选择人脸表情相关的特征来做人脸表情识别任务是基于深度学习方法的特点。目前对于人脸表情识别来说,从研究对象的角度来说可以分为两类,基于图像的和基于视频序列的人脸表情识别。针对静态图像,本文提出了一种基于隔离损失的卷积神经网络结构,用于静态图像表情识别。该方法创新之处在于,利用了卷积神经网络去提取人脸表情特征,相比于人工设计的特征,更加合理和准确。此外,本文提出了新的损失函数——隔离损失,该方法是针对人脸表情特征难以提取这一难点设计的,提高了特征的判别性,大大减小了误判的可能性。而针对视频序列,本文提出了一种局部双向递归循环神经网络(PHRNN)结构,用于提取视频序列之间的时序信息。该模型对人脸各个部位进行双向循环网络(BRNN)的处理,可以提取人脸各部位在时间序列上的变化信息,然后在高层网络进行融合,最终得到人脸整体形态在时间序列上的变化信息,从而进行人脸表情的识别。为了进一步提高视频序列的表情识别准确率,利用模型融合的方法,结合空间信息和时序信息,进行视频序列的人脸表情预测。对于静态图像的人脸表情识别,本文在FER-2013和Extend Cohn-Kanade(CK+)数据集上进行实验。实验证明,本文方法可以提高识别的准确率和鲁棒性。而对于视频,在CK+、Oulu-CASIA和MMI数据集上进行实验。实验结果表明,本文模型融合的方法取得了更好的识别效果。利用模型融合的方法,可以提取更丰富的表情相关信息,进行最终的表情预测,识别率大大提高。