基于深度卷积网络与区域关注机制的视觉问答系统

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:camino
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉和语言是人类智慧理解现实世界的两个核心部分,也是实现人工智能的基本组成部分,并且在各自的领域中已经开展了大量的研究。最近,深度学习的巨大进步打破了视觉和语言之间的界限,跨模态的研究引起了研究人员广泛的关注,例如视觉问答、图片描述、图片-文字匹配等。视觉问答的基本任务是给定一张图片或者一段视频,以及相对应的自然语言问题,系统能够根据问题分析图片或者视频的内容推理出正确的答案。视觉问答能够被用来提升人机交互的能力来检索视觉内容,有很多潜在的应用。最主要的应用是帮助视觉障碍者能通过该系统来获得网络或者现实图片中的信息。并且,视觉问答也是一个重要的基本研究问题。因为一个好的视觉问答系统能够解决很多计算机视觉问题,可以被认为是对于图片理解中图灵测试的重要组成部分。视觉问答不仅需要对图片有很强地理解能力,而且需要复杂的自然语言处理技术用于处理问题。作为一个新兴的研究方向,视觉问答系统所面临的挑战是巨大的,需要我们去学习与挖掘。视觉问答系统有很多种分类的方法。按照答案类型分,可分为开放式(openended)的视觉问答和多项选择(Multiple-choice)的视觉问答。按输入的视觉类型分,可分为图片问答和视频问答。注意关注机制被广泛地运用在不同类型的视觉问答系统中,但是并没有被很好地挖掘。在开放式的图片问答中,视觉注意力机制是最常用的。然而,大多数的视觉注意机制只集中在图片卷积特征的空间区域特性,却忽略了卷积特征的通道信息。对于多项选择的图片问答,之前的工作都是采用开放式问答系统训练好的模型,而且也没有充分利用所提供的选项信息。而在视频问答系统中,视频的时序信息并没有充分地利用,也没有考虑到文本注意力机制。为了解决上诉几个问题,针对具体的视觉问答系统,我们在本文提出了不同的方案来解决以上问题:1)立体视觉注意,这个主要是针对开放式的图片问答。我们充分地考虑了卷积层的空间(spatial)和通道(channel-wise)信息,提出了结合空间注意和通道注意的立体注意机制,其中频道注意可以被视为属性选择的过程,并且实验结果显示我们所提出的算法在三个数据集上都取得了不错的效果。2)多任务学习与自适应注意,专门为多选的图片问答所设计。该算法通过自适应注意机制充分结合候选项的信息,增强对问题和图片的理解,得到每个候选答案的权重,从而选出最终的答案。并且结合了多任务学习机制,将开放式的模型融合到多项选择的模型中,进一步提升系统的性能。在两个多选图片数据集上,该算法刷新了新的记录。3)结构化双流注意力的视频问答。我们提出了结构化片段结构,该结构可以更加的充分利用视频信息。并且所提的双流注意机制可以减少视频中背景的影响,同时得到重要的视频帧和文本信息。我们所提出的模型在TGIF-QA的视频数据集上超过了最新的结果。
其他文献
克莱恩作为自然主义文学创作的一员主力干将,其作品深受达尔文进化论的影响,强调外在环境等客体因素对人类主体所施加的巨大影响。而人类身体作为主体性存在的物质性载体,自
~~
劳伦斯的小说《虹》被公认为是他最伟大的作品之一。文章以这部作品中布朗温家族三代人的爱情线索为基础,分析作品中所表现出的劳伦斯式的两性观及爱情观。首先,在两性关系中,劳
用显微硬度计、光学金相显微镜、透射电镜等手段研究了2519铝合金在180℃下的时效特性及不同时效状态对合金的抗晶间腐蚀能力的影响.结果表明,2519铝合金在180℃时效时具有三
本文将高等数学中一类特殊数列极限用多种方法求解,从多方面角度分析,给出了详细的求解过程,便于各种求极限技巧的比较。
以石煤渣为主要原料制造的建筑轻骨科,颗粒容重低、筒压强度大,应用于混凝土中效果很好。本文通过分析石煤渣轻骨科烧结过程的固相反应,描述石煤渣掺量及粘结剂对轻骨料性能及工
“30难立”的感慨如果是建立在对“30而立”的误读和过度自责的基础上,从而造成心理上的焦虑就不值得了。
多年在农村调研,笔者注意到这样一种现象,即县城和一些中心镇的临街店面几乎年年都会换主装修开业。一个店面开张营业要投人接近20万元。但在县城,购买力却很低,所以很多瞒面到年
从政治方向、丰富内容、编辑素质、出版印刷等方面介绍提高《铜业工程》期刊质量的体会。通过加强质量管理与质量控制,使《铜业工程》适应企业和社会对科技进步的需求。为提高
电视电影《马世清离婚》是一部剧情片,全片以时间流逝为主线,多角度、多视点讲述了老两口真假离婚的故事,呈现老年人的生活及心理状态。全片风格朴素、诚挚、真实、简约。该片在