跨模态关联学习及其在图像检索中的应用研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jxx168jxx168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的蓬勃发展,数据呈现出爆发式增长,因此信息检索作为一个重要的数据处理技术,受到工业界和学术界的长期关注,成为一个热点研究问题。信息检索框架包含两个关键环节:数据的结构化和候选项的排序。数据结构化需要解决的核心问题是如何从原始数据中提炼和组织重要的信息,即元数据(metadata);候选项排序需要解决的核心问题是如何根据用户查询的关联性对候选结果进行排序。当前,信息检索面临的主要挑战有以下两个方面:(1)数据量的高速增长迫切需要高效且准确的数据结构化方法;(2)多样的数据形式和丰富的数据内容使得深入挖掘数据内在联系变得越发困难。针对上述信息检索中的关键环节及挑战,本文从跨模态关联学习的角度出发,对自动图像标注、图像标签排序和图像-文本跨模态检索等问题开展了一系列相关研究工作。论文的主要贡献如下:  提出了一种基于图像-标签关联学习的自动图像标注方法。其核心思想是:通过使用图像-标签关联矩阵和图像间相似度对标签信息进行线性传播。方法提出了标签偏置正则约束,其能够确保学习到更有意义的图像-标签关联矩阵。所提方法具有两个优势:利用多种图像特征而无需降维和快速的模型求解。在三个公开数据库上的对比实验验证了所提方法的优越性。  提出了一种基于深度特征学习和标签嵌入学习的自动图像标注方法。该方法使用视觉特征向量和标签嵌入向量作为输入,随后利用深度前馈神经网络进行特征学习,最后使用度量矩阵计算图像和标签的关联度。该方法能够处理大规模标注问题,同时可以自然地实现在线学习,而无需改动方法中所使用的网络结构。在大规模数据库上的实验表明,所提方法拥有较快的标注速度和优异的标注性能。  提出了一种基于配对标签信息的半监督图像标签排序方法。具体地,该方法首先将排序的图像标签列表分解为标签相对关系矩阵,该矩阵可以等价地表示标签列表的内在排序结构,由此可以避免对复杂排序列表的直接建模。然后,该方法结合图像间的相似度和图像-标签关联矩阵提出了线性的标签关联度预测函数。最后,利用标签已排序和未排序图像数据来构建半监督的标签排序模型,并从中学习图像-标签关联矩阵。所构建的学习模型可通过解析方式直接求解。对比实验表明,所提方法能够取得优于现有方法的标签排序结果。  提出了一种基于深度双向特征学习的图像-文本跨模态检索方法。其核心思想是通过建构针对特定模态的卷积神经网络来实现跨模态特征学习。具体地,在深度神经网络模型构建方面,采用两个卷积网络来分别学习图像特征和文本特征,并通过跨模态相似性度量将卷积网络的输出进行关联,从而挖掘跨模态样本对的匹配和非匹配信息。所设计的深层网络结构可适应跨模态双向检索的特点,即同时表达图像检索文本和文本检索图像两个任务。最后,所提方法引入最大似然框架来优化网络参数。大量的对比实验表明,该方法能够为图像和文本提取出具有语义的特征,进而在图像-文本跨模态检索任务上具有优异的性能。
其他文献
现场总线是20世纪80年代中期在国际上发展起来的。它应用在生产现场,实现微机化测量设备之间的双向串行多节点数字通信,它适应了工业控制系统向分散化、网络化、智能化方向的发展。Profibus是Process FieldBus的缩写,是一种用于工厂自动化车间级监控和现场设备层数据通信与控制的现场总线技术,可实现现场设备层到车间级监控的分散式数字控制和现场通信,从而为实现工厂综合自动化和现场设备智能化提
多机器人协作运动规划是多机器人系统中的一个重要而基本问题。它涉及到环境的表达、冲突检测、运动规划、机器人协作等诸多方面的问题。多机器人系统在工业、军事、航空航天
本文讨论了基于软测量技术的监控系统变量获取,另外针对监控系统的可靠性的要求,详细地描述有关监控系统的冗余设计问题。分析了软硬件冗余的各种方法,并对各种冗余方法在实际控
铰接转向式履带车是由铰接机构连接并实现转向和俯仰等功能的双节履带车,具有接地比压低,机动性高,负载能力大,地形适应能力强等特点,也被称为履带式全地形车,可广泛应用在军事国防
复杂系统异常状态的预报,一直是人们迫切希望解决的问题。为此,众多的理论研究人员与实践工作者都希望找到一些切实可行的预报方法用以解决应用中的实际问题。本文针对复杂工业
机器人视觉伺服控制技术利用视觉传感器来获取环境信息,检测机器人执行器和目标物体当前位姿之间的相对位姿关系,并通过反馈控制使机器人执行器到达期望的位置和姿态,最终完成跟
乙苯脱氢反应单元是苯乙烯装置中的重要组成部分,其作用是在高温负压并且有催化剂存在的条件下,把前部单元送来的乙苯原料转化成重要的化工产品——苯乙烯单体。 目前,国内外
在SIMULINK/MATLAB环境下,利用建立的两段提升管催化裂化反再系统动态机理模型搭建了反再仿真系统。通过系统仿真实验,对反再系统的动态特性和稳态特性进行了分析和研究。在此
大数据环境下,对知识的萃取、组织和服务是解决用户精准化信息需求的一种有效途径。为此,学术界和产业界投入了大量人力物力构建数量更多、涵盖领域更广、质量更高的知识库。为
视觉系统对于智能机器人感知外部环境是至关重要的,它直接影响机器人的性能。虽然对机器人视觉的研究已经取得了很大进展,但是离人们的期望还相去甚远,仍有很多问题有待解决。视