论文部分内容阅读
视觉和语言是人类智慧理解现实世界的两个核心部分,也是实现人工智能的基本组成部分,并且在各自的领域中已经开展了大量的研究。最近,深度学习的巨大进步打破了视觉和语言之间的界限,跨模态的研究引起了研究人员广泛的关注,例如视觉问答、图片描述、图片-文字匹配等。视觉问答的基本任务是给定一张图片或者一段视频,以及相对应的自然语言问题,系统能够根据问题分析图片或者视频的内容推理出正确的答案。视觉问答能够被用来提升人机交互的能力来检索视觉内容,有很多潜在的应用。最主要的应用是帮助视觉障碍者能通过该系统来获得网络或者现实图片中的信息。并且,视觉问答也是一个重要的基本研究问题。因为一个好的视觉问答系统能够解决很多计算机视觉问题,可以被认为是对于图片理解中图灵测试的重要组成部分。视觉问答不仅需要对图片有很强地理解能力,而且需要复杂的自然语言处理技术用于处理问题。作为一个新兴的研究方向,视觉问答系统所面临的挑战是巨大的,需要我们去学习与挖掘。视觉问答系统有很多种分类的方法。按照答案类型分,可分为开放式(openended)的视觉问答和多项选择(Multiple-choice)的视觉问答。按输入的视觉类型分,可分为图片问答和视频问答。注意关注机制被广泛地运用在不同类型的视觉问答系统中,但是并没有被很好地挖掘。在开放式的图片问答中,视觉注意力机制是最常用的。然而,大多数的视觉注意机制只集中在图片卷积特征的空间区域特性,却忽略了卷积特征的通道信息。对于多项选择的图片问答,之前的工作都是采用开放式问答系统训练好的模型,而且也没有充分利用所提供的选项信息。而在视频问答系统中,视频的时序信息并没有充分地利用,也没有考虑到文本注意力机制。为了解决上诉几个问题,针对具体的视觉问答系统,我们在本文提出了不同的方案来解决以上问题:1)立体视觉注意,这个主要是针对开放式的图片问答。我们充分地考虑了卷积层的空间(spatial)和通道(channel-wise)信息,提出了结合空间注意和通道注意的立体注意机制,其中频道注意可以被视为属性选择的过程,并且实验结果显示我们所提出的算法在三个数据集上都取得了不错的效果。2)多任务学习与自适应注意,专门为多选的图片问答所设计。该算法通过自适应注意机制充分结合候选项的信息,增强对问题和图片的理解,得到每个候选答案的权重,从而选出最终的答案。并且结合了多任务学习机制,将开放式的模型融合到多项选择的模型中,进一步提升系统的性能。在两个多选图片数据集上,该算法刷新了新的记录。3)结构化双流注意力的视频问答。我们提出了结构化片段结构,该结构可以更加的充分利用视频信息。并且所提的双流注意机制可以减少视频中背景的影响,同时得到重要的视频帧和文本信息。我们所提出的模型在TGIF-QA的视频数据集上超过了最新的结果。