基于深度学习的文本关键词生成方法

来源 :中国民航大学 | 被引量 : 1次 | 上传用户:rui6372472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词描述了文档的主题信息,可帮助读者快速获得文章核心内容,被广泛应用于信息检索、文献管理、文本压缩等领域。相较于传统的关键词抽取方法,基于深度学习的关键词生成方法不仅可以生成原文中未出现过的关键词,而且可以学习到关键词在文档中的潜在语义信息。故本研究主要聚焦于深度学习在关键词生成上的应用,并根据实际效果提出多个改进算法。具体工作包括以下三个方面:(1)探究基于序列到序列(Seq2Seq)的关键词生成算法。在Seq2Seq框架中融入注意力机制和复制机制,实现了关键词生成模型CopyRNN。通过对比经典的六种抽取式算法和CopyRNN在五个数据集上的测试结果,证明了生成式算法相较于抽取式算法来讲,性能有较大的提升。(2)发现并分析验证CopyRNN会生成重叠短语的不足,并针对此不足提出了基于并行深度学习网络的关键词生成算法(ParaNet)。该算法结构较为复杂,包含并行的编码器和并行的解码器。并行的两个编码器分别独立地将文本序列及其对应的句法标签编码到网络中。并行的解码器采用多任务的框架,使得模型联合地学习了单词解码任务和句法标签解码任务。实验结果证明了ParaNet相较于CopyRNN来说,不仅可以大幅度提升性能,同时也缓解了生成重叠短语的问题。另外,跨领域测试证明了ParaNet可以学习到语义和句法的公共特征,具有良好的泛化能力。(3)发现并深入研究CopyRNN存在复杂化出现关键词生成和弱化缺失关键词生成的问题,针对这些问题提出了一种由易到难的学习策略(Easy-to-hard learning paradigm),并设计了融合覆盖向量的分层解码网络(H-Net)来实现该学习策略。分层网络由一个在低层的简单解码器和一个在高层的困难解码器组成。全面的实验研究表明,分层网络模型在关键词生成任务比最新的关键词生成方法具有更好的性能。此外,通过关键词引导的标题生成任务,验证了这种由易到难的学习策略在其他生成任务中的通用性。
其他文献
从宏观的视角来考察,古典诗歌创作"以无为有"的审美内涵并不局限于言、意关系上的"无辞有意",其审美范型主要表现在三个方面:"无言而妙"、"无迹而神"和"无理愈佳"。
本文详细介绍了碳氢化合物的结构与清洗性能之间的关系。指出清洗剂的组成及其分子结构不同会有不同的物理性质和化学性质。建议用户应依据清洗剂的性质来拟定工艺流程和工艺
随着全球化进程不断推进,原本处于相对隔离状态的各区域文明直接或间接发生碰撞,对立与交流、冲突与对话成为常态。如今,西方文明的弊端日益暴露,世界各国的有识之士纷纷将目
“天工奖”创立至今,已经成为了业内标杆性的奖项之一.一路走来,“天工奖”收获了很多赞誉,也引发了一些质疑.艺术创作和艺术批评是相对主观的精神生产活动,有不同的声音实属
γ-吡喃酮(4H-吡喃酮)是一类重要的杂环化合物,广泛分布于自然界中,是多种天然产物和具有生物活性的合成材料的骨架单元。γ-吡喃酮作为一种有机合成中间体,也常被广泛应用于有
目的探讨10年期间本院收治的上颈椎损伤流行病学特征。方法选取2008年1月~2018年1月本院脊柱外科收治的234例上颈椎损伤患者临床资料,以2008年1月~2013年1月收治的患者作为A
本文从电动平衡车的产生、概念、原理、安全性、适用的标准以及选购等方面对目前市场上流通的电动平衡车进行浅要解析。鉴于UL2272标准的颁布实施,提醒电动平衡车电池出口企
本文根据民办高校人力资源信息系统软件教学的特点和人力资源管理系统应用人才培养的需要,对目前民办高校人力资源信息系统教学现状进行分析,同时提出人力资源信息化实验课程
近年来,老年照护服务供给的市场化已经成为主流趋势并取得共识,但我国老年照护服务供给的市场化改革并不顺利。老年照护服务需求总量模糊、市场化供给的制度环境不成熟、老年
本文介绍了目前国内外粘土矿物在环境修复方面的一些研究内容,主要包括粘土矿物在各种污水处理如印染废水、煤气洗涤废水、味精废水等方面的作用以及在去除水中含氮化合物和
会议