论文部分内容阅读
关键词描述了文档的主题信息,可帮助读者快速获得文章核心内容,被广泛应用于信息检索、文献管理、文本压缩等领域。相较于传统的关键词抽取方法,基于深度学习的关键词生成方法不仅可以生成原文中未出现过的关键词,而且可以学习到关键词在文档中的潜在语义信息。故本研究主要聚焦于深度学习在关键词生成上的应用,并根据实际效果提出多个改进算法。具体工作包括以下三个方面:(1)探究基于序列到序列(Seq2Seq)的关键词生成算法。在Seq2Seq框架中融入注意力机制和复制机制,实现了关键词生成模型CopyRNN。通过对比经典的六种抽取式算法和CopyRNN在五个数据集上的测试结果,证明了生成式算法相较于抽取式算法来讲,性能有较大的提升。(2)发现并分析验证CopyRNN会生成重叠短语的不足,并针对此不足提出了基于并行深度学习网络的关键词生成算法(ParaNet)。该算法结构较为复杂,包含并行的编码器和并行的解码器。并行的两个编码器分别独立地将文本序列及其对应的句法标签编码到网络中。并行的解码器采用多任务的框架,使得模型联合地学习了单词解码任务和句法标签解码任务。实验结果证明了ParaNet相较于CopyRNN来说,不仅可以大幅度提升性能,同时也缓解了生成重叠短语的问题。另外,跨领域测试证明了ParaNet可以学习到语义和句法的公共特征,具有良好的泛化能力。(3)发现并深入研究CopyRNN存在复杂化出现关键词生成和弱化缺失关键词生成的问题,针对这些问题提出了一种由易到难的学习策略(Easy-to-hard learning paradigm),并设计了融合覆盖向量的分层解码网络(H-Net)来实现该学习策略。分层网络由一个在低层的简单解码器和一个在高层的困难解码器组成。全面的实验研究表明,分层网络模型在关键词生成任务比最新的关键词生成方法具有更好的性能。此外,通过关键词引导的标题生成任务,验证了这种由易到难的学习策略在其他生成任务中的通用性。