论文部分内容阅读
近年来,在计算机技术、数字媒体以及多媒体信息高速发展的大背景下,手机、数码相机等高科技产品已经深入人们的生活,随之而来的是呈爆炸式增长的海量图像信息。因此,如何有效地对这些海量图像进行检索就成为了如今计算机视觉及图像处理领域研究的热点问题。自动图像标注算法为给定图像自动地分配语义相关的关键字信息,目前已成为图像分类、检索的重要方法。大多数的研究把图像标注看做一个典型的多标记分类问题,这使得自动图像标注算法取得了一定的进展,但面对海量的图像数据,它们仍然存在一些问题:一是现实中训练样本不足,二是已标注图像数据集的噪声问题,三是如何使预测的关键字信息准确地反映图像特征。这三个问题已成为限制图像标注算法准确率的重要因素。为了提高自动图像标注算法的准确率,本论文对现有的图像标注算法进行了分类整理和深入分析,在多标记学习的基础上,从结合低秩约束正则项的半监督学习方法以及标签排序这两个角度入手,提出了两种图像标注算法,并且在ESPGame、IAPRTC-12、NUS-WIDE等数据库上验证了算法的高效性,主要的研究成果如下:(1)基于结构化低秩表示的半监督学习框架下的图像标注算法。该方法把不同标签的预测模型融合到一个矩阵中,并且引入了矩阵核范数形式的正则项,以此来获得不同标签之间的相关性以及控制模型的复杂程度。除此之外,该算法通过引入图拉普拉斯正则项来充分考虑在已标注和未标注图像上的局部几何结构。同时,考虑到已标注图像的标签噪声问题,算法引入了一个理想的完备矩阵来自动恢复丢失的标签、更正错误的标签。本文给出了对该算法框架的求解方法,并且在多个数据库中进行图像标注实验,验证了算法的有效性。(2)基于标签排序以及矩阵恢复的图像标注算法。该方法根据已给定图像的相关性对标签进行降序排列,而不再是简单的二值选择,解决了多标记学习中训练样本不足、已标注图像的标签不完备的问题。与此同时,该方法将标签排序模型引入到矩阵恢复问题中,并且考虑了矩阵低秩约束标签相关性,因此在标签空间很大而训练样本数有限的情况仍然可以学习出可靠的标签排序模型。本文对该模型采用了加速梯度优化算法(AGA),并在Core15K、ESPGame、IAPRTC-12等数据库中证明了有效性。