融合文本主题信息的中文生成式自动摘要研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:ljyxq13571302523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上包含数十亿的文本信息,并且每天都以指数级形式飞速增长,人们难以快速、准确地从这些文本中甄别出有价值的信息。因此,有必要提供一种可以及时访问和快速消化各种信息的工具来缓解信息过载问题。自动摘要可以将一篇或多篇长文本精简、提炼成一段包含最重要信息的短文本,能够缓解人们的阅读负担。近年来,随着深度学习算法、大数据和硬件算力的迅猛发展,基于注意力机制的序列到序列模型在生成式自动摘要任务中取得成功,得到学术界的广泛研究。然而,现有的摘要模型生成的摘要存在着内容不准确、摘要不充分等缺点,针对这个问题,本文利用关键词作为原文的主题信息并融合到指针生成网络模型中,从而提高模型生成摘要的质量。本文的主要研究工作如下:第一,注意力机制通常用于获取目标词与原文的对齐信息,但是难以识别原文所蕴含的主题内容,传递给解码器的上下文向量缺少对原文主题信息的归纳能力。而人在写摘要时,往往会参考文档中的主题信息,这些主题信息通常以关键词或中心句的方式呈现。鉴于此,本文通过抽取关键词来挖掘原文的主题信息,并将其显式地整合到注意力机制中,从而让模型在有全局主题信息指导的情况下,以上下文感知的方式生成面向主题的摘要。具体而言,先采用TextTank算法抽取原文的主题关键词,然后将所有主题关键词的词嵌入之和作为原文的全局主题表示,最后用全局主题表示引导注意力机制关注主题信息。该方法在NLPCC 2018中文单文档摘要评测比赛中获得第三名,证明了此方法的可行性和有效性。第二,一篇文本的主题通常由多个子主题组成,且每个子主题出现的位置、概率不同,因此需要对子主题加以区分,以提高生成摘要的质量。本文引入主题关键词注意力机制以获取关键词的概率分布,然后将加权的主题关键词上下文向量整合到注意力机制中。相比于全局主题表示,主题关键词注意力机制可以获得各个解码时间步的局部主题信息。在NLPCC 2018中文单文档摘要评测数据集上的初步实验结果证明了该方法的有效性。
其他文献
背景邻苯二甲酸二(2-乙基)己酯[di(2-ethylhexy1)phthalate,DEHP]为代表的邻苯二甲酸酯类塑化剂是公认的环境内分泌干扰物(environmental endocrine disrupting chemicals,EE
图像在传输或存储等过程中会产生噪声,根据图像噪声和图像信号之间的加乘关系,可以分成加性和乘性两种噪声。近年来,出现了许多用于去除加性噪声的变分模型。但是对彩色图像
随着5G移动通信时代的到来,同时同频全双工技术作为提升频谱利用率的重要技术之一,日益成为业界关注的焦点。然而,由于收发天线距离较近且发射信号和接收信号之间的功率差异
近年来,鄱阳湖区的经济发展水平快速提高,人民生活得到明显改善。进入新时代,随着鄱阳湖区居民对美好生活的需要日益增长,如何有效提升鄱阳湖区居民福祉产出效率,这对于鄱阳
近些年随着物联网的快速发展对通信电路提出了更高的要求,不仅需要电路结构简单化,尺寸小型化,同时也要求电路功耗小,这就产生了反向散射无线电的解决方案。反向散射通信技术
几丁质又称为甲壳素或甲壳质(chitin),是一种由N-乙酰氨基葡萄糖以β-1,4糖苷键连接而成直链状高分子生物多聚体,广泛存在于自然界中。几丁质是大多数真菌细胞壁的主要成
会议
制造业在国民经济中占据主导地位,新中国成立以来尤其是改革开放以后,素有“工业关节”之美誉的轴承相关制造业在我国发展势头强劲,但由于其在生产过程中可能出现各种缺陷,轻
随着电子智能设备的普及,人们获取自然场景中的图像越来越方便,研究识别自然场景图像中的汉字也逐渐成为热点问题。针对目前一些方法中识别效率低下、准确率不高、拟合较差等
头孢克洛属于第二代半合成头孢菌素类抗生素,其通过使转肽酶失活,干扰细菌细胞壁最终阶段的合成达到杀菌目的。头孢克洛对多种革兰氏阳性菌、革兰氏阴性菌均具有很强的杀灭作
随着互联网技术的不断发展以及人们生活水平的不断提升,对互联网的应用也越来越广,要求也越来越高,从最初的查阅资料到渗透到生活中衣食住行等各个方面,例如,应用到人脸识别