论文部分内容阅读
从上世纪90年代开始人脸识别领域的科研工作者们就一直专注于寻找适合计算机理解的人脸的有效表达。在2005年之前,绝大多数的人脸表达都是基于底层特征的,这段时间的代表性的成果包括几何结构特征、子空间技术、小波编码和局部描述子等。虽然这些特征种类众多,并且对人脸识别的发展起到了不可磨灭的作用,但是底层特征这种方式并不完全映合人类视觉系统的机理。在人类的视觉系统中,可视信息处理是分级的进行。其中,眼睛负责接受视觉信号,然后传送给主视觉皮层V1区。主视觉皮层V1区针对视觉信号产生一系列的点和边缘的感受器,把视觉信号转化成点和边缘信号,再将它们汇聚到视觉皮层V2区。在视觉皮层V2区根据点和边缘信号产生了一些列的动作检测器、立体检测器以及颜色检测器,将信号转化成更强的关系并汇集到更高的视觉皮层。同时视觉皮层V2区也向主视觉皮层V1区反馈从高层视觉皮层而来的信号。信号根据这种方式最终进入最高层,形成帮助人类理解的有效的语义信息和行为信息。得益于丰富多彩的底层特征表达,从2005年开始,人脸识别领域的科研工作者们开始模仿大脑处理视觉信息的方式构造了大量的人工大脑。这些人工大脑从图像的底层特征中抽取有用信息,组合成越来越抽象并且越来越具有区分能力的高层特征。在这些人工大脑中,最卓越最为人所知的是Fisher向量编码和深度卷积神经网络这两种模型。Fisher向量编码是目前词袋模型中性能表现最好,概括力最强的模型,而深度卷积神经网络是深度模型中最适合处理图像与视频信息的模型。作为最前沿的模型,Fisher向量编码和卷积神经网络不断的在各个应用场景上刷新性能,甚至在人脸识别领域和物体识别领域形成了各占半壁江山的局面。因此,本文对Fisher向量编码和深度卷积神经网络进行深入的研究,在不同场景下尝试大量的评测,提出一些实用的经验,并对性能和速度进行改进。本文的主要工作包括: 在Fisher向量编码方面:本文研究了词袋模型和Fisher向量编码的基础理论,并从层次结构方面重新解释了Fisher向量编码;本文提出了Fisher向量编码的一种实现技巧,并与普通Fisher向量编码的实现做了对比;本文论证了Fisher向量编码在SIFT特征上归一化和Fisher编码上归一化的重要性;本文比较了不同提取方式的SIFT特征和位置信息等底层特征对Fisher向量编码性能的影响;另外,本文还从理论和实践上论证了在Fisher向量编码的早期阶段加入判别信息,能够增强混合高斯模型的判别性,进而进一步提升Fisher向量编码的性能;最后,本文研究了在资源受限的条件下,通过主成分分析法和最大边缘距离度量学习法从高维度Fisher向量编码中学习一种具有判别性的低维度表示,不仅降低了存储和计算成本,还提升了Fisher向量编码的性能。 在深度卷积神经网络方面:首先,本文详细的比较了最前沿的两种深度模型,深度信念网络和深度卷积神经网络,并从理论和实践上论证了在图像处理和视频处理上深度卷积神经网络具有更强的建模能力和推广能力;在速度方面,本文通过寻找最优的数据存储方式、利用单指令多数据流做并行计算、利用矩阵乘法优化卷积操作、合并最大汇聚层和ReLU激励函数等方法,将深度卷积神经网络特征提取的速度提升了10倍左右;此外,本文还构造了从简单到复杂的深度卷积神经网络的级联,让简单模型学习大量普通数据,让复杂模型学习少量奇异数据,达到了不同能力的模型拟合不同难度数据的目的;另一方面,本文还提出了多准则与多返回流的深度卷积神经网络,它能够更好的稳定训练的收敛过程,并一定程度上提升了深度卷积神经网络的能力。 综上所述,本文针对层级特征表示最前沿的两个模型Fisher向量编码和深度卷积神经网络做了广泛的调研和深入的研究,有针对性的从速度和性能上提出了若干经验与改进方法,并进行了有效的验证,一定程度上提升了这些模型在人脸识别和人脸确认的性能。最后本文还提出了几个未完成的开放式问题与猜想,以供进一步研究与学习。