论文部分内容阅读
在计算机视觉研究中,图像识别是一个热门的研究课题,它的成功离不开判别性特征。卷积神经网络,特别是深度卷积神经网络,因其具有强大的非线性表达能力而在图像识别领域中取得了极大的成功。然而,无论是在大规模有标记训练数据集情况下,还是在极少量有标记训练样本情况下,现有方法都没有充分挖掘卷积神经网络强大的非线性表达能力,这导致了卷积神经网络输出的深度特征判别性较弱,进而限制了现有方法的性能。本文致力于增强卷积神经网络判别性,主要工作包括:1.提出了一个基于锚点类间角度分散和类内紧凑的损失函数。现有依赖类中心的损失函数需要在训练过程中不断迭代更新类中心,然而,由于计算资源有限,在每一个训练迭代步骤中,利用整个大规模有标记训练数据集进行类中心的更新通常是不现实的。本文提出采用锚点取代类中心,这些锚点在训练过程中固定不变,并被视为类中心,通过约束卷积神经网络使得训练样本尽可能接近它们所对应的锚点即可确保类内紧凑。此外,本文还设计了两个锚点选择原则来确保所选择的锚点尽可能分散,也即确保了类别分布尽可能分散,从而实现了类间角度可分性。当采用标准正交基作为锚点集时,该损失函数只需一个简单的归一化操作即可快速实现。可视化结果表明,该损失函数增强了卷积神经网络判别性,与此同时,在图像分类和人脸验证任务上的性能提升也证实了该损失函数的有效性。2.提出了一个基于度量学习的语义对齐方法。现有基于3维张量的度量学习方法通常直接比较两幅图像,然而,由于物体可以出现在一幅图像中的任何位置,直接比较两幅图像会导致语义不相关区域的比较,进而会在最终比较结果中引入歧义,减弱卷积神经网络判别性。为了抑制语义不相关区域的比较,本文提出了一个语义对齐方法,该方法通过“收集”和“选择”机制来实现语义对齐。在“收集”阶段,该方法收集两幅图像中所有区域对的比较结果,并将其放在一个关系矩阵中。在“选择”阶段,该方法通过注意力机制抑制语义不相关区域的比较,同时强化语义相关区域的比较。可视化实验结果表明该方法实现了语义对齐,此外,本文还从理论角度分析了该方法的泛化能力。在图像分类任务上的性能提升也证实了该方法有效性。3.提出了一种基于度量学习的实例级嵌入特征快速调节算法。现有基于度量学习方法的嵌入特征缺乏快速调节特征,由于新类别的样本分布不同,并且采样自这些分布的极少量样本并不总是具有代表性,这两个因素会限制卷积神经网络判别性。本文设计了一个新的实例级嵌入特征快速调节算法来增强卷积神经网络判别性,它通过一个注意力机制来调整嵌入特征。在嵌入特征调整后,查询样本与其对应类中心之间的余弦距离被极大程度增大,与此同时,查询样本与其非对应类中心之间的余弦距离在非对应类中心调整前后保持不变。该算法在执行最近邻分类之前对嵌入特征进行调整,因而增强了卷积神经网络判别性。实验分析表明,该算法按照预期的方式增强了卷积神经网络判别性,因而,提升了图像识别的准确率。