论文部分内容阅读
针对图像识别问题,传统的深度学习方法往往需要对整个输入图像进行编码,无法有选择性的重点关注关键信息部分,且对数据集的要求较高,不仅需要人工对数据集进行加标签的工作,而且当图像数据上同时包含主体和背景信息时,往往需要人工对主体信息加上标定框,这无疑消耗了大量的人力、物力和财力。模仿人类视觉注意力机制,深度学习中的注意力机制应运而生。硬注意力机制作为注意力机制的一种,其可以选择性地将输入图像中的某部分关键信息输入到网络中进行特征编码,减少了人工标注标定框的成本。因此,面向弱标注图像识别的硬注意力算法的研究是一个重要的课题。本文提出了一种新的硬注意力算法用来解决弱标注图像识别问题。然而,实际应用场景中,训练集(源域)数据和测试集(目标域)数据往往具有较大的分布差异,使得在源域上训练好的分类器无法很好的对目标域数据进行分类,同时某些领域的数据量稀少甚至没有任何标记信息,领域自适应可以解决源域和目标域数据集间的分布差异,通过对齐源域和目标域的特征表征,从而可以将在丰富标记信息的源域数据上学习到的分类器应用于无标记信息的目标域上。本文分析了领域自适应相关算法及研究现状,通过基于硬注意力迁移的对抗领域自适应算法的研究提高了领域自适应中目标域图像分类效果。本文基于硬注意力机制,完成了以下几个方面的工作:(1)本文从弱标注图像识别角度出发,分析了注意力机制的原理及其相关应用,证明了硬注意力机制在弱标注图像识别中的有效性,并介绍和详细推导了硬注意力机制中的优化算法REINFORCE,其次介绍了领域自适应工作的研究必要性和原理及其目前相关研究现状,重点介绍了对抗领域自适应算法,并分析了基于硬注意力迁移的领域自适应研究的合理性。(2)受循环注意力模型的启发,本文提出了一种面向弱标注图像识别的新的硬注意力模型算法:pan-zoom,该算法在我们设计的强化学习奖励函数的引导下能够通过平移或缩放两种离散的动作选择逐渐定位到弱标注图像中最具有区分度的注意力特征位置,最终识别出弱标注图像类别。本文详细阐述了我们设计的网络模型的结构及其功能,并介绍了本文使用的四个弱标注图像数据集,通过在弱标注图像上的实验及其分析证明了pan-zoom模型的有效性。(3)受到对抗判别领域自适应算法的启发,本文结合循环注意力模型,并针对该模型在无监督域适应过程中存在的不可微分和缺少标签等问题,提出了硬注意力迁移的对抗领域自适应算法,该算法为硬注意力的迁移提供了统一的框架,由于硬注意力模型包含了不可微分网络,需要强化学习的策略梯度算法进行优化,并通过利用判别器网络的输出设计的对抗奖励函数进而优化目标域硬注意力提取注意力特征位置的过程,本文统一将硬注意力模型看作是一个控制问题,即典型的强化学习问题。因此将硬注意力模型提取源域和目标域特征过程分别看作源域智能体和目标域智能体和对应数据集互动的过程,该算法通过目标域智能体和判别器网络间的对抗训练,最终对齐源域和目标域的注意力特征,从而实现硬注意力的迁移,提升了领域自适应中目标域数据的分类效果,该算法在多组领域自适应任务数据集间进行实验,并展示出硬注意力迁移的可视化效果图。