论文部分内容阅读
对大多数机器学习和计算机视觉的任务来说,选择一个合适距离度量都是至关重要的。因此,以自动设定与选取合适的距离度量为目标的度量学习(DistanceMetricLearning,DML)方法引起了越来越多的关注。度量学习一般利用训练数据中发掘出来的配对约束信息,通过对目标函数的优化,为实例之间找到一个最优的相似度度量方法。度量学习的能力已经在机器学习领域得到了充分的验证,而在基于内容的图像分析和检索领域,也有助于解决图像底层的视觉特征与高层的语义概念之间存在的“语义鸿沟”(SemanticGap),即图像视觉特征相似并不能保证图像语义一致。 从分类的角度看,现实世界的数据对象通常属于多个类,并且每个实例具有多个类标签,不同类对应的实例集合存在一定有重合现象,由此带来了一种新的约束信息:语义上下文(semanticcontext)。语义约束是指当2个类标签共同出现的频率很高,那么对应类的实例的特征分布也比较接近,我们称2个类语义上比较接近。假设每一个类的分布为高斯分布,则不同类的分布的距离可以用微分熵(KL-divergence)来度量。 在本文中,我们提出了一种新颖的距离度量学习方法,可以利用多标签图像的特性,同时学习一组带有语义信息的距离度量。我们为每一个类学习一个单独的距离矩阵,或者多个语义上接近的类共同学习一个距离度量。要学习的距离矩阵不仅要使对应的数据在相应的马氏空间中满足配对约束,不同的类之间也要满足语义约束。考虑到现实世界的数据常常具有很高的维度,怎样避免过拟合的情况是决定算法成败的关键因素,对度量学习引入语义约束是一个较为有效的解决方案。同时,度量学习必须考虑到对新数据的泛化能力,为了保证这一点,我们使学习得到的度量矩阵对应的分布尽量接近给定的初始分布。 本文进一步把度量学习的方法应用到图像语义分析的研究中,给出了一种以度量学习为基础的加权最近邻图像语义自动标注(AutomaticImageAnnotation,AIA)方法。在实验部分,我们在两个图像标注领域通用的数据集Corel[9]和TRECVID-2005上对方法性能进行了检验,结果表明,我们的方法要优于最近提出的距离度量算法。 最后,本文对Web图像搜索结果的优化问题的研究进行了初步的尝试。为了减少基于关键词的Web图像搜索结果中的不相关图像,Web图像搜索结果优化逐渐获得了学术界的关注。近年来出现了如,基于分类、聚类以及图模型等方法,多数已知方法难以兼顾性能和执行效率。本文提出了一个新颖的图像搜索结果优化系统:Biting,系统以“必应”图像搜索的结果为基础,利用一个参照集合来降低结果图像中的随意性,通过一个马尔科夫随机场模型来结合图像原始排名、参照集合以及关键词的视觉一致性信息,实现了图像搜索结果的实时优化。