论文部分内容阅读
随着互联网的蓬勃发展,数据呈现出爆发式增长,因此信息检索作为一个重要的数据处理技术,受到工业界和学术界的长期关注,成为一个热点研究问题。信息检索框架包含两个关键环节:数据的结构化和候选项的排序。数据结构化需要解决的核心问题是如何从原始数据中提炼和组织重要的信息,即元数据(metadata);候选项排序需要解决的核心问题是如何根据用户查询的关联性对候选结果进行排序。当前,信息检索面临的主要挑战有以下两个方面:(1)数据量的高速增长迫切需要高效且准确的数据结构化方法;(2)多样的数据形式和丰富的数据内容使得深入挖掘数据内在联系变得越发困难。针对上述信息检索中的关键环节及挑战,本文从跨模态关联学习的角度出发,对自动图像标注、图像标签排序和图像-文本跨模态检索等问题开展了一系列相关研究工作。论文的主要贡献如下: 提出了一种基于图像-标签关联学习的自动图像标注方法。其核心思想是:通过使用图像-标签关联矩阵和图像间相似度对标签信息进行线性传播。方法提出了标签偏置正则约束,其能够确保学习到更有意义的图像-标签关联矩阵。所提方法具有两个优势:利用多种图像特征而无需降维和快速的模型求解。在三个公开数据库上的对比实验验证了所提方法的优越性。 提出了一种基于深度特征学习和标签嵌入学习的自动图像标注方法。该方法使用视觉特征向量和标签嵌入向量作为输入,随后利用深度前馈神经网络进行特征学习,最后使用度量矩阵计算图像和标签的关联度。该方法能够处理大规模标注问题,同时可以自然地实现在线学习,而无需改动方法中所使用的网络结构。在大规模数据库上的实验表明,所提方法拥有较快的标注速度和优异的标注性能。 提出了一种基于配对标签信息的半监督图像标签排序方法。具体地,该方法首先将排序的图像标签列表分解为标签相对关系矩阵,该矩阵可以等价地表示标签列表的内在排序结构,由此可以避免对复杂排序列表的直接建模。然后,该方法结合图像间的相似度和图像-标签关联矩阵提出了线性的标签关联度预测函数。最后,利用标签已排序和未排序图像数据来构建半监督的标签排序模型,并从中学习图像-标签关联矩阵。所构建的学习模型可通过解析方式直接求解。对比实验表明,所提方法能够取得优于现有方法的标签排序结果。 提出了一种基于深度双向特征学习的图像-文本跨模态检索方法。其核心思想是通过建构针对特定模态的卷积神经网络来实现跨模态特征学习。具体地,在深度神经网络模型构建方面,采用两个卷积网络来分别学习图像特征和文本特征,并通过跨模态相似性度量将卷积网络的输出进行关联,从而挖掘跨模态样本对的匹配和非匹配信息。所设计的深层网络结构可适应跨模态双向检索的特点,即同时表达图像检索文本和文本检索图像两个任务。最后,所提方法引入最大似然框架来优化网络参数。大量的对比实验表明,该方法能够为图像和文本提取出具有语义的特征,进而在图像-文本跨模态检索任务上具有优异的性能。