【摘 要】
:
图像描述任务类似于人类的看图说话,目的在于根据一张图像生成描述性语言。图像描述任务不仅能够为视力有障碍的人提供很好的辅助,还能够应用与社交媒体,医学,数字图书馆等方方面面的领域,使得计算机为更多的人带来便利。相比于计算机视觉的分类,检测,分割等任务,图像描述任务的难点在于不仅要识别图像中对象的属性与对象之间的交互,还需要学习人类语法知识,生成无论是语法还是语义上都通顺的句子。近年来随着深度学习的快
论文部分内容阅读
图像描述任务类似于人类的看图说话,目的在于根据一张图像生成描述性语言。图像描述任务不仅能够为视力有障碍的人提供很好的辅助,还能够应用与社交媒体,医学,数字图书馆等方方面面的领域,使得计算机为更多的人带来便利。相比于计算机视觉的分类,检测,分割等任务,图像描述任务的难点在于不仅要识别图像中对象的属性与对象之间的交互,还需要学习人类语法知识,生成无论是语法还是语义上都通顺的句子。近年来随着深度学习的快速发展,基于注意力机制的encoder-decoder框架已经成为了图像描述任务的通用框架,并且被证明了能够生成基于图像内容的准确描述。然而随着后续研究的逐渐饱和,模型生成描述的准确性很难继续提升,体现在评价指标上的得分也难以提高。虽然针对评价指标进行强化学习的模型相比于基于交叉熵的模型在评价指标上有着一定的优越性但生成描述的通顺度却大打折扣。因此本文不采用强化学习的思路,而是对LSTM结构进行改进并应用多个注意力机制以适应图像描述任务。本文提出了基于多层多表示注意力机制的图像描述模型使得生成的描述更加贴近图像内容以及人类的描述方式。在模型的编码环节通过两种不同的编码器引入图像的多方面信息对原来的简单卷积过程进行优化,集成CBAM的ResNet能够提取图像的空间与通道两个维度的信息,Faster R-CNN能够提取物体的类别与轮廓信息。在模型的解码环节首先对词嵌入过程进行了优化,引入了BERT预训练结果赋予模型单词之间上下文关系以及语法的先验知识,生成语义信息更加准确的词向量。在结构上通过多层注意力机制,多表示注意力机制以及双层LSTM结构对解码器进行优化,并通过可视化分析证明了引入的注意力机制能够使模型正确地根据图像信息生成描述。模型在不同的评价指标上的得分超过了近两年论文的结果。最后,本文收集并制作了应用于图像描述任务的新数据集Shutterstock,包括700万张图片与每张图片的一句描述,在数据集的大小上远超过了MS COCO,Flickr30k等常用数据集,在数据集的质量上也体现了一定的可用性。
其他文献
近视是一种常见的眼科疾病。随着角膜屈光手术的发展,越来越多的患者通过手术改善了视力。然而屈光手术对于个别个体具有一定的风险。手术切除角膜基质层的一部分,通过改变角膜的几何形貌来改变角膜的屈光力。在前房液眼内压(intraocular pressure,IOP)作用下,角膜变薄之后会达到新的生理平衡状态。因此,角膜的生物力学性能对于术后效果会产生关键影响。通过实验评估角膜的力学性能对于预测术后角膜变
洗扫车作为当今时代最主要的环保工具,在带来整洁环境的同时也造成了严重的噪声污染和能源浪费,有悖于建设资源节约型和环境友好型社会的方针政策。鉴于此,“十三五”国家重点研发计划“新能源汽车”重点专项6.2将高效气力输送系统的优化与开发列为重点研发子项目。气力输送系统主要是由离心风机、吸尘盘、集尘箱、管路以及风道等几部分组成。其中离心风机和吸尘盘是主要的噪声源,产生的气动噪声占整车噪声的绝大部分,因此,
目前,由于智能机器人以及仿生皮肤技术的发展,涉及到相关技术领域的研究逐渐受到人们的重视。对外部环境精准快速感知是智能机器人的基本能力,其中触觉是智能机器人感知外界的重要部分,包括温度、力和湿度等物理信息。能够不在人工的干预下独立的活动和处理问题是机器人智能化发展的方向,在此过程中需要机器人通过触觉传感器来感知外界的物理环境,进行目标的检测和识别,进而完成复杂和精细的任务,因此触觉传感器的研究和应用
随着我国经济快速发展,国家中心城市人口大量涌入,交通压力急剧增加,交通拥堵问题越发严重,市域快速轨道交通作为一种快速发展的交通运输方式,加强了中心城市和卫星城的联系,能大大区域之间文化经济活力,快速轨道交通具有旅客运输量大、速度快、占用地面空间小、节能环保等突出优点,成为缓解大城市交通压力的必然选择;快速轨道交通将迎来更加快速的发展。快速轨道交通建设为地下工程,地基变形对地下工程有较大影响,尤其在
设(X,d,μ)是满足非负Ricci曲率条件的度量测度空间.本文研究了上半空间X×R+上调和函数的边界问题.我们得到了若u(x,t)是定义在上半空间X×R+上的调和函数且满足以下Carleson测度条件:其中B(xB,rB)表示以xB为球心,以rB为半径的球,▽=(▽x,(?)t)表示全梯度,则它的迹u(x,0)=f(x)是有界平均振动(BMO)函数.反之,迹满足BMO条件的所有调和函数满足Car
基于方面的情感分析(Aspect-based Sentiment Analysis,简称ABSA),是情感分析中的一项细粒度任务,其目标是识别特定方面信息在其上下文中的情感极性。基于方面的情感分析包含了两个基本子任务:基于方面类别的情感分析(Aspect Category Sentiment Analysis,简称ACSA)和基于方面实体的情感分析(Aspect Term Sentiment An