论文部分内容阅读
在过去的几十年中,人脸识别技术作为模式识别和计算机视觉领域的一大研究热点,得到了广泛的关注和深入的研究。然而21世纪是一个大数据的时代,获取具有同一主题的大量图像数据变得轻而易举。这些人脸图像集合相比单幅人脸图像含有更丰富的身份信息,因此针对图像集合进行整体的分析与识别具有越来越重要的意义。这已经超出了传统人脸识别问题的研究范畴,并逐渐形成了一个新的研究热点——基于视频(或更广义地称为图像集合)的人脸识别问题。不同于传统的静态人脸识别任务,视频人脸识别问题中往往涉及到同一个体的大量图像样本,即从孤立地对待静态图像样本到将图像集合整体当作一个样本。由于人脸图像集合中通常包含姿态、表情、光照和分辨率上的较大变化,并可能带有大量冗余或噪声,因此问题所涉及的两个最关键问题为:(1)对图像乃至图像集合学习紧致有效的特征表示;(2)准确稳定地度量这些集合特征表示之间的差异。因此本文主要围绕这两个关键问题开展研究,来提升视频人脸识别的精确度和鲁棒性。具体地,本文的主要研究工作包括: (1)提出了一种高斯分布流形上的判别分析方法。该方法将图像集合表示为包含多个局部高斯模型的高斯混合模型,并旨在学习高斯分布之间的判别性度量,来进一步促进图像集合的鲁棒分类。由于高斯分布位于一个特殊的统计流形上,该方法提出两种判别分析方案,即核判别分析方案和图嵌入方案,来促使欧氏空间上的判别分析方法能够适应于高斯分布流形所特有的几何和统计特性。 (2)提出了一种判别性集合协方差导向的图像特征表示学习方法,致力于学习一种与后续的图像集合整体特征表示和分类紧密结合、目标一致的图像特征表示。该方法建立了一种基于深度卷积网络的图像特征学习网络,其训练目标为使学到的目标特征空间上的集合协方差模型具有最大判别性。为了形式化该训练目标,该方法设计了两种不同的损失函数,对应两种不同的表示学习方案,即图嵌入方案和Softmax回归方案,并提出优化算法来联合优化图像特征学习网络与集合模型分类框架。 (3)针对现实场景中视频数据一般质量较差的情况,提出了一种基于统计建模的仿射包最近邻搜索方法来增强视频人脸识别对噪声的鲁棒性。该方法采用仿射包模型来建模每个图像集合,从而能够继承仿射包模型的优良性质,即能够一定程度上补全图像集合中样本间的未知表观变化。随后基于统计分布估计,为仿射包中的每个仿射点预测它与对应集合同类的概率,以此概率作为搜索仿射包最近邻点时每个备选点的置信度。为了兼顾点对距离最小与置信度最大的目标,该方法定义了损失函数,并且设计了优化算法求解一对概率最近邻点。最终该方法利用概率最近邻点的距离,来更鲁棒地度量图像集合间的距离。 (4)进一步提出了一种原型判别学习方法,致力于对每个图像集合学习一个具有判别力和代表性的原型点集合。这些原型点是从相应的仿射包中学习的,从而将过于宽松的仿射近似收缩到一个更精确的点集内。同时,该方法学习一个线性投影,以保证在投影后的目标空间上,学习到的原型点可以用于将不同类别的图像集合进行分离。为了增强目标子空间的稳定性与鲁棒性,进一步对投影矩阵施加一个正交约束来保证投影前后几何性质一致。随后,该方法设计优化算法来对原型点和投影矩阵进行联合优化。 综上所述,本文围绕视频人脸识别任务的两个关键问题,即特征表示与度量学习,开展了广泛和深入的研究。大量实验结果表明,本文提出的方法可以有效应用于视频人脸识别问题,显著提升了视频人脸识别的性能。