【摘 要】
:
近年来,人工智能迅猛发展,计算机视觉与自然语言处理的交叉领域的研究逐渐吸引科研工作者的兴趣。大多数现有工作聚焦图像字幕任务,旨在根据单张图像生成单个句子描述。然而,本文将输入和输出的维度进行扩展,基于图像序列来生成段落描述,简称视觉叙事任务。相比图像字幕任务,视觉叙事对图文交叉领域提出更高挑战,它不仅要求对图像序列中的每张图片进行理解以及图片之间的上下文关系,同时要求生成语义连贯的自然语言段落。首
论文部分内容阅读
近年来,人工智能迅猛发展,计算机视觉与自然语言处理的交叉领域的研究逐渐吸引科研工作者的兴趣。大多数现有工作聚焦图像字幕任务,旨在根据单张图像生成单个句子描述。然而,本文将输入和输出的维度进行扩展,基于图像序列来生成段落描述,简称视觉叙事任务。相比图像字幕任务,视觉叙事对图文交叉领域提出更高挑战,它不仅要求对图像序列中的每张图片进行理解以及图片之间的上下文关系,同时要求生成语义连贯的自然语言段落。首先,本文对基于深度学习的视觉叙事算法进行研究。针对当下视觉叙事任务在图像流建模及文本生成方面的不足之处,构造首个该任务的中文数据集,并提出一种基于多模态空间映射的检索式模型架构RST-Att。一方面,该模型搭建双向长短期记忆网络,引入注意力机制,提高不同场景下的图像流的建模能力;另一方面,模型融合语言学中的修辞分析理论特征来改善生成文本的连贯性问题。在实验部分,本文采用了中文和英文两个数据集,结果表明RST-Att相比基线模型取得了更好的表现。进一步,基于相同的任务,不同于检索式方法,本文进一步探索生成式方法并提出一种对抗性神经网络学习模型AAL。AAL在生成模型的基础上,构造奖励模型代替最大似然估计的学习原则,生成奖励值以优化模型。另外本文提出了一种全新的文本生成粒度,即在意群的层面在进行段落生成,以提高描述的连贯性。在实验部分,通过设计对比实验,在自动化评价指标及人工评测上均取得了比基线模型更好的效果。最终,本文利用上述提出的视觉叙事算法,综合开发了一款游记生成系统,根据用户上传的旅行照片流自动生成相关的游记。该系统主要包括数据采集模块、游记生成模块以及后台管理与前端展示模块。
其他文献
江西省奥林匹克体育中心是江西省委省政府为承办2011年第七届全国城市运动会而投资16.7亿元巨资兴建的具有世界级水准的大型现代化体育场馆,由"一场五馆"组成,均为钢结构金属
中国当代艺术走到今天,已经到了一个令人困惑和尴尬的阶段,这种困惑和尴尬来自于中国当代艺术存在的不同层面的焦虑感,焦虑特征实际上构成了中国当代艺术止步不前的根本症候
诊所式法律教育是一种从案例教学法发展出来的并借鉴医学院临床教学方法的一种全新法学教育模式。这种教学模式旨在通过教师指导学生参与实际的法律运用过程来培养和提高他们
中国先民长期对玉器文明的执着追求,导致人造玉器-瓷器的发明,从新石器时代的白陶、印纹硬陶釉陶、商代的原始瓷器,到东汉终于发明了瓷器。瓷土的精选,工艺的提高,龙窑窑温提高到1250℃
为推进海上丝绸之路战略的建设,构建海上丝绸之路东南亚航运网络数据平台,基于复杂网络理论的方法,从节点的度及度中心性、接近度中心性和中介中心性等方面分析了海上丝绸之路东
随着市场经济的全球化发展步伐的加快,各地经济呈现紧密联系,我国沿海自贸区的建立有利于促进沿海地区的经济繁荣,加快与台湾自由经济示范区的对接合作,有助于大陆地区借鉴台湾企
经过20年的快速发展.展览会的功能已经得到了市场的充分肯定。然而.也有很多企业开始对会展丧失信心.在他们看来,异地参展成本巨大,收益却不能提前预计,风险太大。很多展览会由于没
严重的急性呼吸道综合征(severe acute respiratory syndrom,SARS)是一种传染性极强的呼吸系统疾病,2002年11月至2003年7月在我国内地和世界上30多个国家和地区出现流行,引起全
随着网络经济的发展,电子商务在新经济舞台上扮演着越来越重要的角色,它必将对我国的朝阳产业--展览业产生重大影响.电子商务就是信息流的数字化、电子化,它最拿手的就是对信
房价越调越涨的另一端,超级地价使得社会资源被卷入对赌黑洞。房价的疯狂,挤压其他产业的成长空间,并有吹大泡沫、形成系统风险的架势。作为中国经济支柱型产业,房地产业的发