基于深度学习的跨媒体目标检索

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:precursor1231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨媒体目标检索(Visual Grounding)的主要任务是根据给定的自然语言描述文本,在图像上框选出相关的区域。为解决该任务需要算法能够同时理解语言和视觉特征,以连通两者间的语义鸿沟,从而在两者间提取出共同的语义信息,并基于得到的特征信息在图像中预测坐标框。目前在跨媒体检索中最常用的算法模型包括4个部分:查询文本特征编码、侯选框生成以及视觉特征提取、多模态特征融合以及目标定位。本文中针对跨媒体目标检索提出了一些高性能的深度神经网络模型:(1)一种针对跨媒体目标检索的区域侯选框的端到端式网络(Region-based End-to-End Network,R-EEN)。不同于其他分阶段式算法,R-EEN是一种端到端式网络模型。R-EEN使用侯选框生成网络(Region Proposal Network,RPN)生成侯选框并同时提取侯选框对应的图像视觉特征。对于多模态特征融合模块,REEN使用多模态因式化双线性池化模型(Multi-modal Factorized Bilinear pooling,MFB)对图像和文本特征进行更高效的特征融合。(2)一种针对跨媒体目标检索的多样性和鉴别性侯选框生成网络(Diversified and Discriminative Proposal Network,DDPN)。该部分内容首先讨论一个高效的侯选框生成模型所应具备的属性,并介绍了使用多样性和鉴别性指标评价候选框质量,在此基础上提出多样性和鉴别性侯选框生成网络,最后基于DDPN提出一种针对跨媒体目标检索的高性能简单基准算法(baseline)。(3)一种基于混合检测模型和双线性池化的增强DDPN模型。该方法利用多个检测模型以提取侯选框图像区域对应的集成式特征,并且采用更复杂的MFB模型对图像和文本特征进行更高效的特征融合。本文就提出的算法分别在跨媒体目标检索领域中的几个主流数据集上进行了大量的实验(这些数据集包括Flickr30k,Refer It Game,Ref COCO,Ref COCO+)。实验结果表明本文提出的方法模型在上述所有数据集中均表现出远远超过目前最好算法的效果。
其他文献
云南省是能源和矿产资源大省,其丰富的能源资源也决定了云南省工业能耗和碳排放量巨大。云南省在工业经济低碳发展“十三五”规划《纲要》中提出建立全省碳排放总量控制制度和分解落实机制,到2020年单位国内生产总值的二氧化碳排放比2005年降低45%以上。首先,本文从云南省工业行业发展现状展开分析。通过测算云南省工业行业总体及细分行业的碳排放量和二氧化碳碳排放强度,分析工业碳排放现状。利用LMDI分解法分解
当前锌电积用阳极为Pb-Ag合金阳极,其存在析氧过电位过高(0.8-1.0V)、机械性能较差等缺点。为了研制出一种满足锌电积用高催化活性和耐腐蚀的复合阳极材料,本文选取多孔钛(3D-Ti)作为基体材料于环保体系(Pb(Ac)_2-NH_2SO_3H)中利用复合电沉积制备Co_3O_4和CNTs共掺杂的Pb O_2复合阳极。首先,利用旋转圆盘电极(RDE)构建稳态扩散并采用Koutechy-Levi
在人工智能、“互联网+”时代,如何运用技术实现教育变革已然成为重要的研究主题。本研究以作文自动评价为主题,探讨如何基于修辞特征实现作文修辞自动评判,进而有效减轻教师负担、促进教育与技术的深度融合。本文首先结合修辞学相关理论及小学生常用修辞手法的定义与特点,分析与提取了小学生作文修辞评判特征集,包括词汇、句式和修辞格三个方面,共76个预测变量,其中同义词对数和词汇密度分别使用了两种统计方法,共计78
癫痫(Epilepsy)是一种具有高度遗传异质性的复杂疾病,具有发病率高、病程迁延、治愈率低、致残率高的特点。其发病机制具有复杂性,癫痫发作与离子通道、神经递质、神经胶质细
沙垒田凸起周缘潜山是渤中凹陷西部主要凸起潜山,具有良好的勘探潜力,但是前人相关的研究有一定局限性不够全面。因此,本文以沙垒田凸起潜山为研究对象,通过有机地球化学、成藏动力学、油气地质学等手段,并根据前人研究成果,充分利用测井、地球化学、地球物理等资料,分析沙垒田凸起潜山的烃源岩条件、储层特征、盖层分布特征、圈闭类型、保存条件等成藏要素,对研究区典型油气藏进行成藏解剖的研究,总结出沙垒田凸起潜山油气
社区精神卫生社会工作服务源起于西方经验,在我国地方实践中初见成效。2013年,世界卫生组织将精神卫生纳入综合行动计划,《中华人民共和国精神卫生法》也正式实施。2015年,我国陆续颁布了一系列精神卫生政策,指导全国精神卫生工作规划和地方综合管理试点。运用政策链和政策群的分析框架梳理显示:我国精神卫生政策呈政府主导下,社区康复、社会组织参与和社会工作者培养探索的趋向。“全国-试点-全国”的政策路线需要
近些年,为更好地促进工业经济发展和环境保护之间的平衡,受环境管制的影响而出现了复杂的工业生产现状变化。部分企业由于污染排放的超标和地区工业转型等因素被迫停产关闭,部分企业面临着环境治污的高额投资压力而生产停滞低产,但也有企业不断地进行生产技术创新和治污水平创新。环境管制是通过法律和行政等多样手段来规范企业和个人的经济行为,使经济在有序、合理、稳定的前提下发展。强有力的环境管制政策有利于管制企业生产
Docker是一个开源的应用容器引擎,被广泛应用于各种系统。Docker容器可以为系统提供隔离性,将不同应用间的执行环境互相隔离开,使其在运行过程中互不影响,便于部署应用并提高其安全性和可靠性。对于一个已经部署在宿主机系统中的应用,存在将此应用部署到Docker镜像中以提高其隔离性的需求。将应用部署到带有基础操作系统的Docker镜像中时,存在系统兼容性问题并且镜像中含有无效依赖文件。另一种部署方
博物馆不仅仅是为广大人民群众提供文化知识教育的公共机构,更是历史典藏以及文化遗产的收集陈列场所。文创品开发是激发博物馆活力、谋求生存发展、彰显品牌形象的有力举措。近年来,从国家级博物馆,到地方的文博单位,各类文化艺术机构争先恐后加入文创行业,各类文创产品遍地开花,为丰富现代生活、满足人民精神文化需求提供了多元选择;开发博物馆文创产品对文博机构经济和社会效益的提升作用也逐渐凸显。虽然就总体来看,目前
政务公开是实现政府信息公开透明的重要途径,是监督权力运行的重要方式,有利于公众积极主动参与和监督政府工作,促使政府依法行权、履职尽责。税务局作为重要的政府机关,持续推进政务公开,是建设服务型税务机关的必然要求,对维护纳税人合法权益,提升税务机关政务服务水平作用重大。因此对政务公开工作的研究与应用,可以促使税务机关更好履行税收管理和纳税服务职责。本文以新沂市(县级市)税务局为例,研究县级税务局政务公