论文部分内容阅读
深度学习极大促进了计算机视觉领域的发展,如图像检索、目标检测等。但这些任务依赖于大量的标注数据进行训练。然而,现实世界中的某些类别只有少量的标注样本,甚至没有标注样本,这为传统分类算法带来了新的挑战。为了解决该问题,零样本图像分类技术得到关注,即:对训练阶段未出现的类别进行分类。本文针对零样本图像分类技术分别提出基于特定类别的合成字典模型(Class-Specific Synthesized Dictionary Model, CSSD)和基于多模态生成对抗网络模型(Multi-Modal Generative Adversarial Network, M2GAN),以实现对未见类别的分类。
首先,提出CSSD算法将类别语义特征映射到视觉空间,并为每个类别学习一个特有的编码矩阵以代替全局的编码矩阵。CSSD算法包括视觉特征的重构和伪数据的合成两个阶段。通过伪特征的合成,可将零样本图像分类问题转化为传统分类问题进行解决。CSSD算法考虑到类别间存在的特异性和相似性,在重构过程中,分别学习每个类别特有的编码矩阵以及一个共享的编码矩阵。在伪特征合成阶段,通过查找与未见类别相似的可见类别,并利用其线性组合来完成未见类别特征的生成。在此基础上,利用支持向量机(SVM)完成分类。该方法在四个基准数据集(AwA,CUB,aPY和SUN)进行了实验,其结果表明所提出的CSSD方法具有有效性,并在传统零样本图像分类和广义零样本图像分类任务下均达到了较为先进的水平。
其次,探索基于生成对抗网络的零样本图像分类方法。当前应用于零样本图像分类的生成对抗网络模型,通常是将单一类别语义特征映射到视觉空间以完成分类。本文提出M2GAN,针对不同类别语义特征间的互补关系进行深入挖掘,构建多个生成器并以不同的类别语义特征分别作为输入,以生成不同的伪视觉特征,并分配不同的权重进行特征融合。整个模型经过生成对抗网络的训练,融合的伪视觉特征更加适应真实特征的分布。为了验证该算法的有效性,M2GAN在三个数据集上(AwA1,AwA2和CUB)进行实验,证明所提方法可达到目前较为先进的性能水平。同时,进一步分析了不同类别语义特征及其权重对性能的影响,充分验证利用不同类别语义特征间的互补性和特征融合的有效性。
首先,提出CSSD算法将类别语义特征映射到视觉空间,并为每个类别学习一个特有的编码矩阵以代替全局的编码矩阵。CSSD算法包括视觉特征的重构和伪数据的合成两个阶段。通过伪特征的合成,可将零样本图像分类问题转化为传统分类问题进行解决。CSSD算法考虑到类别间存在的特异性和相似性,在重构过程中,分别学习每个类别特有的编码矩阵以及一个共享的编码矩阵。在伪特征合成阶段,通过查找与未见类别相似的可见类别,并利用其线性组合来完成未见类别特征的生成。在此基础上,利用支持向量机(SVM)完成分类。该方法在四个基准数据集(AwA,CUB,aPY和SUN)进行了实验,其结果表明所提出的CSSD方法具有有效性,并在传统零样本图像分类和广义零样本图像分类任务下均达到了较为先进的水平。
其次,探索基于生成对抗网络的零样本图像分类方法。当前应用于零样本图像分类的生成对抗网络模型,通常是将单一类别语义特征映射到视觉空间以完成分类。本文提出M2GAN,针对不同类别语义特征间的互补关系进行深入挖掘,构建多个生成器并以不同的类别语义特征分别作为输入,以生成不同的伪视觉特征,并分配不同的权重进行特征融合。整个模型经过生成对抗网络的训练,融合的伪视觉特征更加适应真实特征的分布。为了验证该算法的有效性,M2GAN在三个数据集上(AwA1,AwA2和CUB)进行实验,证明所提方法可达到目前较为先进的性能水平。同时,进一步分析了不同类别语义特征及其权重对性能的影响,充分验证利用不同类别语义特征间的互补性和特征融合的有效性。