论文部分内容阅读
随着互联网上的图像数量呈几何级数快速增长,快速有效地寻找所需的图像变得越来越困难。利用语义进行图像的组织、检索和推荐,可以提高图像的获取效率,因此是计算机视觉的一个重要研究方向。本文将机器学习中的多示例学习框架应用到粗粒度的语义图像检索和推荐中,并对与此相关的一些关键技术进行了探索性研究,研究内容包括SIFT核函数、图像聚类、分类、检索和推荐等技术。论文的主要创新点有:(1)针对图像SIFT (Scale-Invariant Feature Transform)特征的集合性、位置互异性,提出了一种新的AMK (Angle Matching context Kernel)核函数。首先计算图像SIFT集合的平均SIFT向量,基于角度相似性选择SIFT的配对点,然后选用SIFT配对点的邻域作为其上下文,累加平均SIFT向量相似性、SIFT配对点和上下文的相似性作为AMK核函数的值。从理论上证明了构造的AMK函数符合核函数的Mercer条件,在CaltechlOl和Caltech256上的实验结果也表明AMK核函数相对于上下文依赖核(Context-dependent Kernel)和多解析直方图核(Pyramid Kernel)是有效的。(2)针对已有BAMIC (BAg-level Multi-Instance Clustering)算法对于噪声比较敏感问题,提出了一种新的多示例聚类算法—ECMIL (Earth mover’s distance Clustering of Multi-Instance Learning)算法。首先基于示例的欧式距离将相似示例合并,然后利用包的示例计算包的推土机距离,最后使用k-medoids算法聚类。在基准数据集MUSK、Corel和SIVAL上进行的实验表明,ECMIL算法具有良好的聚类性能。(3)基于多示例学习的三个假设(正示例聚集性、包结构性和示例对包标签影响概率性)提出了CK_MIL和ck_MIL两种算法。首先使用K均值聚类算法分别在正负示例集合上聚类,选择包内正示例并计算包的结构,然后CK_MIL直接将包内正示例和包结构组成一个新的向量,使用RBF计算包的相似性,而ck_MIL则引入一个概率参数平衡两者对包相似性的影响,最后采用SVM进行分类。在基准测试数据集和图像数据库上的实验表明,CK_MIL和ck_MIL两种算法可有效提高图像分类精度。(4)针对对象图像检索问题,提出了一种新的SCAMK-MIL (Spectral Clustering and Angle Matching context Kernel for Multi-instance Learning)图像检索算法。该算法将图像当作包,分割区域的视觉特征当作包中的示例,首先采用谱聚类方法获取包的正示例,然后分别利用RBF核函数和AMK核函数计算潜在正示例和其它示例的相似性,最后使用SVM和相关反馈进行图像检索。在SIVAL图像集上进行的实验表明该方法是有效的。(5)将多示例学习引入图像推荐领域,提出了一个新的对象图像推荐问题。针对该问题,首先研究了基于多示例学习的经典DD算法和传统余弦相似性相结合的DD_RS推荐算法,其次基于图像的颜色、纹理、形状和局部特征,使用改进的ck_MIL算法,提出了一个新的CKMIL_RS推荐框架。在SIVAL和Caltech101评分矩阵上进行的实验,验证了两个方法可以提高推荐性能。