论文部分内容阅读
受益于计算能力的提升和大数据时代的到来,机器学习在计算机视觉和语音识别等领域已经取得了显著的成果。但随着机器学习的发展,人们已经不再满足于只处理数据量大的、有监督的问题,小样本甚至是无样本的学习问题提上日程。因此,如何充分的利用已有的知识来帮助无样本情况下的学习,具有重要的研究价值和意义。本文主要是从零样本学习出发进行研究。具体来说,本文分别在直推式和归纳式两种设定下对该问题进行了研究。零样本学习可以看作是迁移学习的一种,它通常包含源领域和目标领域两部分数据。前者含有大量的有标记的训练样本,而后者则没有标记信息,且与前者包含不同的标签集。目前,零样本学习还是不能摆脱对其它模态信息的依赖,比如:由人工标注的属性构成的语义空间。通过使得源领域中的已知类和目标领域中的未知类共享语义空间,人们可以构建它们之间的联系。为了解决零样本学习问题,已有的方法大多是基于投影的方法,它们在训练阶段利用源领域上的监督信息学习将样本和类表示到一个共同空间的投影函数,在测试阶段则先将测试样本和类投影到指定空间,再通过最近邻等方法计算出与每个样本距离最近的目标类,最终得到每个测试样本的标记。但这些方法通常存在一些投影领域偏移和Hubness问题。且由于它们在预测的时候采用了分两阶段进行的策略,因此会存在一定的信息损失。不同于这些已有的方法,本文提出从反向预测的角度来解决零样本学习问题。根据目标领域中无标记的样本在训练阶段是否可用,可以将零样本学习大致分为两类:直推式零样本学习和归纳式零样本学习。在直推式零样本学习的设定下,目标领域中的无标签数据是可用的。本文提出的RevTZSL模型通过同时考虑源领域和目标领域中的信息来帮助已知类和目标类之间的知识迁移,并利用反向预测原理从样本对应的类标签反向的推断出视觉特征,以此来加速对未知类的判别,有效避免零样本学习中的投影领域偏移问题和Hubness问题。而在归纳式零样本学习的设定下,目标领域中的无标签数据在训练阶段是不可用的。针对此问题,本文的主要做法是通过在源领域上采用反向预测的方法学到一个类似于简单的自编码器的模型(RevIZSL),使其具有足够好的鲁棒性,从而在目标领域上具有很好的扩展性。另外,值得一提的是,本文提出的两个模型在测试阶段都仅仅通过一步就可以完成对测试样本标签的预测。为了验证提出的RevTZSL和RevIZSL模型的有效性,本文在3个标准的零样本学习数据集和一个细粒度图像分类的基准数据集上分别进行了实验,测试了这两个算法的分类准确度。实验结果表明提出的算法在4个数据集上与当前最优的算法相比都具有明显优势,尤其是在细粒度图像分类上的绝对优势验证了提出模型的判别能力,另外,通过对RevTZSL和RevIZSL的参数敏感性和收敛速度进行分析,也进一步验证了本文提出的交替优化算法的有效性。