论文部分内容阅读
随着计算机技术和互联网的飞速发展,包括数字图像在内的各种多媒体数据的数量正在以惊人的速度增长,面对海量的多媒体信息,如何有效的管理、组织和利用有用的信息是一个关键和迫切的问题,同时也是一个重大的挑战。当传统的基于标注的图像检索方法已经不能满足用户的需求的时候,研究者们提出了一种通过提取图像视觉内容,如颜色、形状、纹理等特征来实现检索的技术,并称之为基于内容图像检索技术。基于内容图像检索存在的主要问题是低层图像特征到高层语义特征的映射问题,以及用户的主观性问题,称之为语义鸿沟问题。为了更好的解决这个问题,在上世纪90年代末期,最初在文本检索中使用并取得成功的相关反馈技术引入到基于内容图像检索中,它吸引了很多研究者的兴趣,并被证明是一种提高基于内容图像检索系统的性能的有效方法。研究者将相关反馈问题看成监督学习的过程,由此许多研究把机器学习方法引入到相关反馈技术中。最近很多相关反馈的研究都是基于支持向量机。相比其他算法,支持向量机有较好的泛化能力,不需要严格的假设,以及快速学习能力。结合主动学习的思想,Tong提出一种SVM-active主动反馈算法,并认为最接近分类边界的图像是最有信息度,在每轮反馈中选择最接近SVM分类超平面的样本作为反馈样本,但是此方法存在反馈样本特征冗余,SVM学习会变得偏差和不稳定。视觉特征选择一直是图像检索研究的一个热点。在检索过程中,根据用户查询需求的不同,用户对不同特征的关注度不一样,即不同的类型的图像与不同特征子空间的相关度是不一致的,在某些查询里面,颜色特征可能占有更重要的作用。因此需要一种更好的方法来描述用户的查询意图和特征子空间之间的关系。为了改进SVM-active的样本选择策略和更好的模拟用户查询时候对不同特征子空间的关注度,本文提出了一种主动学习算法。颜色和纹理可以认为是一张图片的两个充分不相关的视图,结合多视图学习的思想,首先分别计算颜色和纹理两种特征空间的权值,并在两种特征空间上分别进行SVM学习,并对未标注样本进行分类;为了减少反馈样本的冗余,基于K-means聚类的主动反馈策略被采用,将未标注样本返回给用户标注。通过同传统的基于SVM相关反馈算法和基于主动学习SVM反馈算法的实验比较,表明该图像检索方法有较高的准确性,并且有不错的检索效果。