论文部分内容阅读
近年来,随着数码采集设备、存储技术、及互联网技术的飞速发展,以图像为代表的数字内容迅猛增长,并已经成为人们生产与生活中不可或缺的重要组成部分。然而,面对越来越多的图像数据,用户要想从海量内容中快速找到想要的图像正变得越来越难。因此,如何建立图像的高效索引、并实现准确检索已经成为当前迫切需要解决的问题。 本文主要针对图像数据内容,深入探讨和研究了图像语义属性特征表达以及基于主动学习的图像分类和检索等相关理论和方法。通过分析和挖掘语义属性的跨类别性质以及丰富的网络资源,建立了介于高层类别和底层特征之间的中层属性特征空间;综合考虑了样本的不确定性、多样性和稠密性等样本选择标准,借助用户在相关反馈过程中提供的信息,在标注样本稀少的情形下有效改善了主动学习方法的性能。本文的主要工作和贡献如下: 针对语义属性无法适应不同应用的缺点,特别是在无训练样本图像分类(zero shot learning)任务中欠佳的表现,提出了学习辅助特征空间的方法。通过分析待分类类别里少量训练样本(small shot learning)的底层特征与对应类别之间的关系,我们提出了两种辅助特征学习方法:序列特征学习和判别性特征学习。这两种方法从不同的方面考虑了样本极度缺少的不利条件,深入挖掘类别与底层特征之间的关系,并在此基础上形成了不同的判决性特征的学习方法,提高了图像特征表达的判别力。 针对主动学习初始阶段标注样本稀少的不利条件,提出了一种基于属性特征空间的主动学习方法。传统的主动学习方法中,用户只是简单地提供样本类标,系统对用户标注的样本也只是简单地放入训练样本集中,重新进行分类器的学习,针对这种传统的主动学习模式,利用用户提供的语义属性和大量的网络图像,主动迁移源数据知识建立图像属性特征空间,降低了图像特征的维数和模型的复杂度,从而减少了相关反馈的轮次以及需标注样本的数量,并且有效提高了图像检索的检索准确率。 深入探讨了传统主动学习中三种经典选样标准的融合,提出了一种自适应传播的主动学习方法。本文受图传播方法的启发,提出了一种新的批模式主动学习方法,不仅考虑了标注样本和未标注样本之间的关系,还考虑了未标注样本内部的关系,根据样本数据的非平衡分布和人类的个性化反馈,综合考虑和衡量了样本的不确定性、多样性和稠密性等样本选择标准以及标注样本与未标注样本之间的相互关系,并将这些标准和用户的个性化反馈信息融入当前标注样本的确定度自适应传播函数的参数中,从而有效兼顾了主动学习方法的性能和效率。