论文部分内容阅读
图像分类任务可以分为三种:超类图像的分类(Superordinate-level),基本类别的分类(Basic-level)和细粒度图像的分类(Subordinate-level或者Fine-grained level)。细粒度图像分类(Fine-Grained Visual Categorization)作为细粒度图像识别的关键技术,近年来获得了越来越多的关注。细粒度图像分类属于目标识别的一个子领域,其主要目的是在相同基本类别下对其繁多的子类别进行区分。由于物体细粒度级别的信息可以帮助计算机更详细的理解物体,因此,细粒度图像分析技术具有更大的应用价值。但是由于细粒度图像都属于同一个基本类别,它们具有较高的视觉相似性。因此,细粒度图像的研究具有更大的挑战。 在细粒度图像分类中,为了使生成的特征表达具有较高的鲁棒性,现有的大部分算法选择人工标记的局部区域位置信息(Part annotations)作为辅助信息。但是人工标记的局部区域位置信息的获取需要大量的人力和财力。为了减少算法对于人工标记局部位置信息的依赖,提出了一种基于多层次描述融合的细粒度图像表达模型,该模型只依赖训练图像的目标标记框(Bounding box annotations),从而自动生成细粒度图像鲁棒的特征表达。其中,多层次描述模型包含五个不同层次的特征描述(Description):1)原始图像的特征描述;2)利用目标定位网络(Localization CNN)生成的目标区域的特征描述;3)基于K近邻联合分割算法得到的目标前景特征描述;4)基于图模型分割算法得到的两种不同配置的局部区域特征描述。通过拼接操作融合这五种不同层次的特征描述生成细粒度图像的特征表达。两个公开数据集上的实验验证了方法的有效性。例如,在CUB-200-2011和FGVC-Aircraft上分别取得了82.5%和86.9%的分类准确率。 上述算法虽然减少了细粒度图像描述对于人工标记局部区域位置的依赖,但是它仍依赖人工标记的目标框(bounding box)。而目标框的依赖限制了算法的扩展性和实用性。为了进一步减少了算法对于人工标记的目标框的依赖,提出了一个基于图像类别标签的自动双层描述模型(Automated Bi-level Description,简称AuBD)。“双层”表示该模型包含两个层次的特征描述:目标层次特征描述和局部区域层次特征描述。“自动”表示该模型在训练时通过图像的类别标签自动生成这两个层次的特征描述。相比于费时费力的人工标记信息,图像的类别标签是相对比较容易获取的。因此,自动双层描述模型可以很容易应用于大规模的细粒度图像数据集。其中,局部区域层次的特征描述是通过卷积神经网络生成的目标显著图来生成,而利用无监督的图模型匹配算法提取图像的目标区域。在仅使用图像类别标签的配置下,自动双层描述模型在三个公开数据集上都取得了最优的结果。例如,在CUB-200-2011和Car-196数据集上分别取得了81.6%和88.9%的分类准确率,在另外一个更大规模的BirdSnap数据集上取得了68%的分类准确率。 近几年,细粒度图像分类的相关研究取得了显著的进步,但是已有的算法都是关注如何提升细粒度图像分类的准确率,而忽视了这些算法本身的复杂性带来的问题。针对于现有算法复杂度高、难训练、耗时高的问题,提出了一种高效的互补卷积神经网络(Convolutional and Normalization Networks,简称CN-Nets)来生成输入图像紧凑的视觉特征。互补卷积神经网络包含具有两个互补性的子网络:Conv-Net和Norm-Net。其中,Conv-Net关注于局部区域的特征表达学习,而Norm-Net关注于图像的全局特征的表达学习。互补卷积神经网络提升了细粒度图像分类的准确率,而且也降低了图像特征提取的时耗。两个数据集上的实验验证了卷积互补神经网络的高效性。进一步,由于实际生活中细粒度图像类别的数目可能是动态增长的,而现有的分类算法不能处理未在训练集中出现的类别。为了解决这个问题,基于互补卷积神经网络,提出了单样本细粒度图像检索的任务。“单样本”强调是通过图像检索的方式来识别训练集中没“看到”过的类别。针对单样本细粒度图像检索,给出单样本细粒度图像检索的形式化定义和一个用于该任务的数据集OSFGIR-378K,并设计了一个由粗粒度到细粒度(Coarse-to-Fine)的多层次检索框架。一系列实验分析验证了互补卷积神经网络在细粒度图像的表达学习方面的优势以及多层次检索框架的有效性。