【摘 要】
:
近年来,随着硬件计算能力的提高,深度学习在计算机视觉的浪潮中得到了快速的发展。当人们看到一张图片的时候,可以快速的依据自己的知识对图像语义信息做出理解。但是,如果希望机器像人一样对图像内容做出一定的判断,那么机器就需要大量的数据进行学习,提取图像的特征,建立图像模型,对图像进行深度理解然后输出结果。为了关注图像中最丰富的视觉语义信息区域,研究人员在提出了注意力机制的概念。注意力机制在自然语言处理和
论文部分内容阅读
近年来,随着硬件计算能力的提高,深度学习在计算机视觉的浪潮中得到了快速的发展。当人们看到一张图片的时候,可以快速的依据自己的知识对图像语义信息做出理解。但是,如果希望机器像人一样对图像内容做出一定的判断,那么机器就需要大量的数据进行学习,提取图像的特征,建立图像模型,对图像进行深度理解然后输出结果。为了关注图像中最丰富的视觉语义信息区域,研究人员在提出了注意力机制的概念。注意力机制在自然语言处理和图像深度理解任务中扮演着至关重要的角色,与人类的认知系统相一致。注意力机制广泛地应用于图像理解的各个方面中,比如,语义分割,图像描述,目标检测与跟踪和行人再辨识等领域。本论文旨在研究注意力机制在图像描述和行人再辨识领域中的应用。其中,图像描述可以理解为给出一张图生成一段文字描述,行人再辨识可以理解为跨摄像头下的图像检索。二者都是基于图像语义的深度理解之上,通过对图像内容的理解,模型输出预期的结果。本论文以注意力机制在图像理解应用中的两个子任务为研究内容,阐述了深度卷积神经网络和注意力网络相结合的基本步骤。然后对涉及到的关键技术进行分析,介绍了注意力机制在图像理解两个子任务中的应用方法,以及该方法存在的不足,在此基础之上进行改进。本论文的主要工作为:1)提出了一种基于多层级视觉融合的图像描述模型。在视觉策略网络中通过多层级子神经网络模块将视觉特征转化为视觉知识的特征集。融合网络生成使描述语句更加流畅的虚词,用于视觉策略网络和语言策略网络的交互。在语言策略网络中使用基于强化学习的自批评策略梯度算法对视觉融合网络实现端到端的优化。在融合网络中设计的自适应注意力机制,可以有效的减少非视觉信息梯度对视觉信息梯度的干扰,加快网络训练过程的收敛。最后在语言策略网络中运用强化学习优化暴露偏差和误差累积等问题。通过在多个开源的数据集上进行定量分析和定性分析,以及和其他模型方法进行比较,充分验证了模型的有效性。2)提出了一种基于局部注意力机制和语义解析的行人再辨识模型。由于受行人姿态变化、光照视角和背景等因素的影响,行人再辨识在图像理解领域是一项充满挑战性的任务。为了提高辨识的精准度,最近的研究通过对数据集中的行人分成若干块提取图像的局部特征进行辨识。但此类方法存在着人体局部特征不匹配,以及会丢失非人体部分的上下文线索等问题。为了解决以上问题,本论文首先运行一个语义分割模型图像进行分割,然后将分割后特征图在进行分块,利用精确的局部特征增加人体语义解析对任意轮廓的建模能力。此外,考虑到局部区域的遮挡物体对图像理解的重要性,使用局部注意力网络捕捉非人体部分丢失的语境线索。最后在三个主流的数据集上进行大量的定量实验和消融实验,验证了模型的有效性和分析了局部注意力机制对模型的贡献。
其他文献
自2004年英国曼切斯特大学的K.S.Novoselov and A.K.Geim利用机械剥离法制造出单层石墨烯以来,单层、双层、三层及少层石墨烯由于其新奇的物理和化学性质(拓扑、非常规超导、魔角、光学、催化等等)引起了广泛的研究和关注。先前薛其坤团队研究表明,在纳米尺度上,由多个原子层堆垛而成的超薄金属材料,由于量子尺寸效应,某些物理参量会呈现出不同于体态的独特量子振荡现象。在本论文研究中,我们
近几十年来,随着科学技术的不断进步,由人们的生活或者发生的经济行为所产生的空间面板数据被大量地采集与记录.这些空间面板数据之中存在着某种相联关系,并非完全独立且具有不可分割的相关性,应运而生的空间面板数据模型便是一种挖掘空间面板数据信息的重要模型之一,因其自身优势及广泛应用已经成为计量经济学的研究热点.在建立空间面板数据模型时,通过合适的方式选择关键变量会使得空间面板数据模型具备更好地解释能力.从
群环是一个重要的环类,其与群论,环论,域论,代数拓扑等理论有着十分紧密的联系.近年来,群环已广泛应用在通信,密码等领域.设R是有单位元的结合环,G是群.Maschke定理说明了群环RG是半单环当且仅当R是半单环,G是有限群,G的阶在R中可逆.利用Wedderburn-Artin定理,可以得到半单群环的结构的完全刻画,即半单群环必同构于有限个除环上的全矩阵环的直积.对一般群环的结构的研究是比较困难的
基质辅助激光解析/电离飞行时间质谱(Matrix-assisted laser desorption time-of-flight mass spectrometry,MALDI-TOF MS)具有样品用量少、简单快速、灵敏、良好的耐盐性能、宽的测定范围及高通量等特点,被广泛应用于多肽、核酸、蛋白质等大分子分析检测。然而,用于小分子化合物检测时受到限制,主要是因为传统的有机小分子基质会产生很强的基
分次扩张和高斯扩张是环的两类重要扩张,纯锥的研究对刻画分次扩张和高斯扩张有非常重要的作用.设V是除环/(的全赋值环,且V≠K,G是群,Aut(K)是/(的自同构群,σ:G→Aut(K)是一个群同态,假设G在K上的斜群环K[G,σ]有左商环Q(K[G,σ]).本文对G=Q(n)和G=Z(n)回的情况进行了讨论.我们首先对Q(n)的纯锥进行了完全的刻画,然后用它对K(Q(n),σ]上的平凡分次扩张进行
混合向量变分不等式是一类较为广泛的数学模型,包含了变分不等式问题,最优化问题及向量变分不等式问题等.它在力学,博弈论,经济等领域都有广泛应用.本文主要研究非强制混合向量变分不等式解的存在性和混合向量变分不等式解集的稳定性,论文内容具体安排如下:第一章介绍向量变分不等式问题的历史背景及研究现状,例外簇的发展情况以及向量变分不等式解集稳定性的研究现状;介绍了本文用到的常用符号、基本概念和引理.第二章在
变分不等式研究是最优化理论研究的一个热点.张量变分不等式自2018年提出以来,受到广泛关注.本文研究混合张量变分不等式解的存在性和解集的稳定性,分为三章,具体内容如下:第一章,介绍混合变分不等式、张量互补问题和张量变分不等式的历史背景和研究现状,以及研究方法,并给出本文使用的一些常用符号和基本概念.第二章,利用例外簇方法研究混合张量变分不等式解的存在性.首先证明若不存在例外簇,则混合张量变分不等式
向量平衡问题是一类广泛的数学模型,包含向量变分不等式问题及向量优化问题,在经济金融、交通运输、资源分配及工程管理等领域应用广泛.本文主要研究向量平衡问题及其相关问题解集的连通性,具体安排如下:第一章简要介绍向量平衡问题及其相关问题的研究背景及研究现状,给出本文需要用到的一些基本符号、概念以及引理.第二章在自反Banach空间中我们利用对偶锥的连通性证明,凸向量优化问题弱有效解集非空有界等价于任一标
近年来半正椭圆方程的边值问题受到了国内外越来越多的学者关注,它能描述和解决我们现实生活中许多的自然现象和工程技术问题.特别是在机械系统,悬索桥设计,天体物理学,燃烧理论模型等领域的应用.目前关于半正椭圆方程的边值问题的研究已有诸多成果.本文讨论了二类半正椭圆方程在Dirichlet边界条件上解的存在性.第一部分,本文研究了一类半正椭圆方程径向正解的存在性.我们首先利用反证法并借助-Δ在Ω中带有Di
随着数据分析和处理任务的规模越来越大,加速计算进程的需求也急剧增大。分布式计算是一种相对于集中式计算的计算方法,它将计算任务由一台设备上的集中计算分配到网络中多个设备上分布式地进行计算,从而加速了计算进程。它可以处理大规模的数据分析任务,如机器学习,神经网络学习等等。分布式计算系统常用的一种计算框架Map Reduce已经广泛应用于解决很多大规模数据处理问题。在Map Reduce框架中,整体计算