论文部分内容阅读
互联网上包含数十亿的文本信息,并且每天都以指数级形式飞速增长,人们难以快速、准确地从这些文本中甄别出有价值的信息。因此,有必要提供一种可以及时访问和快速消化各种信息的工具来缓解信息过载问题。自动摘要可以将一篇或多篇长文本精简、提炼成一段包含最重要信息的短文本,能够缓解人们的阅读负担。近年来,随着深度学习算法、大数据和硬件算力的迅猛发展,基于注意力机制的序列到序列模型在生成式自动摘要任务中取得成功,得到学术界的广泛研究。然而,现有的摘要模型生成的摘要存在着内容不准确、摘要不充分等缺点,针对这个问题,本文利用关键词作为原文的主题信息并融合到指针生成网络模型中,从而提高模型生成摘要的质量。本文的主要研究工作如下:第一,注意力机制通常用于获取目标词与原文的对齐信息,但是难以识别原文所蕴含的主题内容,传递给解码器的上下文向量缺少对原文主题信息的归纳能力。而人在写摘要时,往往会参考文档中的主题信息,这些主题信息通常以关键词或中心句的方式呈现。鉴于此,本文通过抽取关键词来挖掘原文的主题信息,并将其显式地整合到注意力机制中,从而让模型在有全局主题信息指导的情况下,以上下文感知的方式生成面向主题的摘要。具体而言,先采用TextTank算法抽取原文的主题关键词,然后将所有主题关键词的词嵌入之和作为原文的全局主题表示,最后用全局主题表示引导注意力机制关注主题信息。该方法在NLPCC 2018中文单文档摘要评测比赛中获得第三名,证明了此方法的可行性和有效性。第二,一篇文本的主题通常由多个子主题组成,且每个子主题出现的位置、概率不同,因此需要对子主题加以区分,以提高生成摘要的质量。本文引入主题关键词注意力机制以获取关键词的概率分布,然后将加权的主题关键词上下文向量整合到注意力机制中。相比于全局主题表示,主题关键词注意力机制可以获得各个解码时间步的局部主题信息。在NLPCC 2018中文单文档摘要评测数据集上的初步实验结果证明了该方法的有效性。