基于层级特征抽象的人脸识别研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tian_mizhen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从上世纪90年代开始人脸识别领域的科研工作者们就一直专注于寻找适合计算机理解的人脸的有效表达。在2005年之前,绝大多数的人脸表达都是基于底层特征的,这段时间的代表性的成果包括几何结构特征、子空间技术、小波编码和局部描述子等。虽然这些特征种类众多,并且对人脸识别的发展起到了不可磨灭的作用,但是底层特征这种方式并不完全映合人类视觉系统的机理。在人类的视觉系统中,可视信息处理是分级的进行。其中,眼睛负责接受视觉信号,然后传送给主视觉皮层V1区。主视觉皮层V1区针对视觉信号产生一系列的点和边缘的感受器,把视觉信号转化成点和边缘信号,再将它们汇聚到视觉皮层V2区。在视觉皮层V2区根据点和边缘信号产生了一些列的动作检测器、立体检测器以及颜色检测器,将信号转化成更强的关系并汇集到更高的视觉皮层。同时视觉皮层V2区也向主视觉皮层V1区反馈从高层视觉皮层而来的信号。信号根据这种方式最终进入最高层,形成帮助人类理解的有效的语义信息和行为信息。得益于丰富多彩的底层特征表达,从2005年开始,人脸识别领域的科研工作者们开始模仿大脑处理视觉信息的方式构造了大量的人工大脑。这些人工大脑从图像的底层特征中抽取有用信息,组合成越来越抽象并且越来越具有区分能力的高层特征。在这些人工大脑中,最卓越最为人所知的是Fisher向量编码和深度卷积神经网络这两种模型。Fisher向量编码是目前词袋模型中性能表现最好,概括力最强的模型,而深度卷积神经网络是深度模型中最适合处理图像与视频信息的模型。作为最前沿的模型,Fisher向量编码和卷积神经网络不断的在各个应用场景上刷新性能,甚至在人脸识别领域和物体识别领域形成了各占半壁江山的局面。因此,本文对Fisher向量编码和深度卷积神经网络进行深入的研究,在不同场景下尝试大量的评测,提出一些实用的经验,并对性能和速度进行改进。本文的主要工作包括:  在Fisher向量编码方面:本文研究了词袋模型和Fisher向量编码的基础理论,并从层次结构方面重新解释了Fisher向量编码;本文提出了Fisher向量编码的一种实现技巧,并与普通Fisher向量编码的实现做了对比;本文论证了Fisher向量编码在SIFT特征上归一化和Fisher编码上归一化的重要性;本文比较了不同提取方式的SIFT特征和位置信息等底层特征对Fisher向量编码性能的影响;另外,本文还从理论和实践上论证了在Fisher向量编码的早期阶段加入判别信息,能够增强混合高斯模型的判别性,进而进一步提升Fisher向量编码的性能;最后,本文研究了在资源受限的条件下,通过主成分分析法和最大边缘距离度量学习法从高维度Fisher向量编码中学习一种具有判别性的低维度表示,不仅降低了存储和计算成本,还提升了Fisher向量编码的性能。  在深度卷积神经网络方面:首先,本文详细的比较了最前沿的两种深度模型,深度信念网络和深度卷积神经网络,并从理论和实践上论证了在图像处理和视频处理上深度卷积神经网络具有更强的建模能力和推广能力;在速度方面,本文通过寻找最优的数据存储方式、利用单指令多数据流做并行计算、利用矩阵乘法优化卷积操作、合并最大汇聚层和ReLU激励函数等方法,将深度卷积神经网络特征提取的速度提升了10倍左右;此外,本文还构造了从简单到复杂的深度卷积神经网络的级联,让简单模型学习大量普通数据,让复杂模型学习少量奇异数据,达到了不同能力的模型拟合不同难度数据的目的;另一方面,本文还提出了多准则与多返回流的深度卷积神经网络,它能够更好的稳定训练的收敛过程,并一定程度上提升了深度卷积神经网络的能力。  综上所述,本文针对层级特征表示最前沿的两个模型Fisher向量编码和深度卷积神经网络做了广泛的调研和深入的研究,有针对性的从速度和性能上提出了若干经验与改进方法,并进行了有效的验证,一定程度上提升了这些模型在人脸识别和人脸确认的性能。最后本文还提出了几个未完成的开放式问题与猜想,以供进一步研究与学习。
其他文献
随着社会媒体的日渐繁荣,人们越来越多的在不同的社交网站上分享生活中的感受。简短的社会媒体内容包含了巨大的商业价值,因此,对社会媒体的情感分析越来越重要。面向社会媒体的
激光导引头电子舱是导弹探测、跟踪目标物体的关键部件,它为导弹系统的精确制导提供了重要保证。因此,导引头电子舱产品使用前的调试和检测至关重要,它们是保证电子舱的安全性和
本文在研究基于内容音乐检索基本理论和发展动念的基础上,着重研究了基于旋律的音乐检索算法及其在哼唱检索系统中的应用,主要创新性工作为: (1)提出旋律的表示模型,建立音乐
随着我国人大信息化工作的不断深入,在法律法规信息管理和使用方面逐步暴露出一些问题:其一,信息系统重复建设情况比较严重,资源利用率不高。目前我国采用统一且分级的立法制度,
货币识别与鉴别属于图像识别范畴,一直都是计算机应用领域研究的一个热点。货币自动识别在使用电子自动化设备的银行、商业、民用等众多领域内有广泛应用前景,而通过图像处理
学位
随着Internet的迅速发展和普及,电子商务(electronic commerce)迅速成为商务活动的重要形式,并且有着极为广阔的发展前景。而建立在Internet/Intranet之上的Web服务技术是电子
干涉合成孔径雷达(InSAR)技术是目前遥感成像领域的一个热点。它具有覆盖面积大,空间分辨率高,高程精度高的优点,并且可以全天时、全天候的工作,是获取三维数字高程模型(DEM)
学位
本文以“东半球空间环境地基综合监测子午链”为课题背景,进行空间环境数据共享子系统的设计与实现。   东半球空间环境地基综合监测子午链,简称子午工程,是国家发改委批
学位
行人检测技术在智能视频监控、车辆辅助驾驶、人体行为分析等方面有着广泛的应用,随着各种视频信息的飞速增长,安全意识的不断加强,大量不同场景下的行人检测任务需求变得越来越
社交网络已经成为大众发布信息的一种新渠道,并得到越来越多用户的关注和使用。社交网络的流行和普及,使得基于社交网络的信息数量呈现爆炸式的增长,然而信息质量却没有得到相应