【摘 要】
:
近年来,随着深度学习的迅猛发展,自然语言处理已经成为了科学研究的重点领域之一。目前,基于深度学习技术来处理自然语言的研究工作主要集中在知识图谱、机器翻译、问答系统、文本分类等方向,然而关于将深度学习技术应用于自动生成文本摘要的研究工作少之又少。此外,在被称之为“互联网时代”的今天,文本信息的日生产量已然呈现出指数级地爆炸式增长趋势,面对数据量级超乎想象的文本信息,人类不再可能胜任从文本中提炼出其想
论文部分内容阅读
近年来,随着深度学习的迅猛发展,自然语言处理已经成为了科学研究的重点领域之一。目前,基于深度学习技术来处理自然语言的研究工作主要集中在知识图谱、机器翻译、问答系统、文本分类等方向,然而关于将深度学习技术应用于自动生成文本摘要的研究工作少之又少。此外,在被称之为“互联网时代”的今天,文本信息的日生产量已然呈现出指数级地爆炸式增长趋势,面对数据量级超乎想象的文本信息,人类不再可能胜任从文本中提炼出其想要传达的核心思想的工作。因此,为了能够从文本信息中高效地提炼出核心内容,即文本摘要,我们迫切需要基于深度学习的文本摘要自动生成技术,这即是本论文研究的重点。文本摘要是自然语言处理的下游任务之一,是众多生成式任务中的一种,它分为抽取式文本摘要和抽象式文本摘要,较抽取式文本摘要而言,抽象式文本摘要的可读性以及流畅性更高。此外,在相关研究工作中发现,目前许多自然语言处理的下游任务大都在预训练语言模型基础上进行微调来实现,优秀的预训练语言模型能够充分理解上下文并生成蕴含上下文语信息的词表达,这对提升下游任务的性能有着非常重要的作用。所以,本文旨在实现一种基于预训练语言模型的抽象式文本摘要生成模型,即REINS模型。该模型将采用针对生成式任务较为主流的Encoder-Decoder架构思想,其中Encoder部分将基于目前最流行的预训练语言模型BERT进行搭建,所以REINS模型在词的表达上能够充分利用上下文语境信息,帮助Decoder更好地进行解码;而Decoder部分将基于机器翻译模型Transformer中的Decoder组件,该组件抛弃了传统生成式任务中常用RNN或CNN的思想,采用注意力机制,从而帮助REINS模型能够更加关注于词级别以及句级别的内在联系,最终使得该模型在抽象式文本摘要任务中的表现更加卓越。此外,与传统的基于RNN或CNN搭建的文本摘要生成模型相比,REINS模型还支持并行模式,能够加快模型的训练、评估以及推理过程。最后,与基于BERT搭建的针对其他下游任务的模型一样,该模型将具有较好的迁移能力,即通过较少的数据集进行训练,就能够获得较好的文本摘要生成质量。本文的主要工作和贡献包括:首先,本文提出了一种可迁移抽象式文本摘要生成模型;其次,本文搭建了以该模型为核心的抽象式文本摘要生成系统,即TATSGS系统,它能够提供数据预处理、模型训练、模型评估以及模型运用等一系列管道服务;最后,本文利用标准文本数据集CNN&Daily Mail来实现对REINS模型在生成抽象式文本摘要方面的性能进行了验证,得到了较好的实验结果,并采用ROUGE评估体系,ROUGE-1、ROUGE-2和ROUGE-L分别达到了40.13,17.87,36.94,从而验证了基于预训练语言模型BERT搭建起来的文本摘要生成模型REINS的可迁移性。
其他文献
近几年来,业界广泛使用Hadoop MapReduce、Spark等分布式并行计算框架进行大数据处理,这些框架大部分都遵从BSP模型,shuffle阶段在大数据处理中无法避免。随着处理的数据量爆炸性的增长,企业考量成本与容错性倾向于将shuffle阶段的中间数据储存于磁盘中,而不是内存中。因此,分布式计算任务的shuffle阶段中不仅有着密集的网络I/O,还有着密集的磁盘I/O。这两种密集的I/O
大面积农田具有交通不便、幅员广阔等监测难点,为农田建立时空模型能帮助管理者加强信息化、智能化生产管理。现有的时空建模方法多采用卫星遥感技术或定点高清摄像技术采集时空数据:卫星遥感技术以成本低、覆盖范围广的优势被广泛应用于土地覆被监控;定点高清摄像技术具有实时性强、分辨率高等特点,应用于小面积范围内的实时监控。但目前仍主要存在两大难题:其一,多源时空数据的异构性问题。遥感数据与定点摄影数据在成像条件
三维物体语义理解和旋转不变性特征研究一直是解决许多实际应用的关键性问题。由于现实场景中三维模型所处方位往往不确定,语义分析算法在实际当中的应用面临诸多挑战。同时,语义定义的模糊性导致很难有一个定义的标准能够符合所有人的认知,因此现有的语义相关数据集以及算法存在一定的局限。但是人对于不同物体之间的语义对应关系存在一定的共识,利用对应关系可以一定程度上避免语义定义带来的歧义,从而可以从一个全新的角度促
党的十八大以来,习近平总书记围绕加强国际传播能力建设、增强国际话语权、提升国家形象、提高国家文化软实力和中华文化影响力提出了一系列新理念新思想新战略,成为新时代文化"走出去"战略的理论指导和行动指南。中共中央统筹推动对外文化传播、文化交流和文化贸易,加快了中华文化发扬光大和走出去的历史进程。中国在国际传播能力建设、对外文化交流和对外文化贸易等领域都取得重大成就,大大提高了中国的国际话语权、中华文化
物联网的蓬勃发展和工业4.0的提出推动了现代工厂的智能化与自动化进程,而智能工厂对设备监控技术也提出了新的要求——非侵入式监测。射频识别(Radio Frequency Identification,RFID)技术作为工业中广泛应用的物联网技术,因其无源感知的优点也成为了普适计算领域中代表性的非侵入式感知技术,将其应用到工业新时代的设备监控系统中有着得天独厚的天然优势。为了解决机械设备异常或故障状
自改革开放以来,工业园区作为城市众多产业的空间物质载体,对于促进产业结构调整和产业集聚升级的承载作用显著;与此同时,工业园区也成了环境和安全风险事故的高发地。尤其是在环境保护作为国家重大战略的今天,对工业园区的环境管理问题日益突出,各级政府也陆续颁布了多项政策,推进工业园区的生态环境信息化建设以及工业园区的数字化智能化发展。但目前大多数的园区环境信息化建设与实际的环境管理需求是脱节的,系统仅针对水
软件众包因其开放式利用群体智慧解决问题的特点,在工业界和学术界受到众多关注。近年来,随着软件众包平台的不断发展,其用户量也呈现出高速增长的趋势,如何帮助用户挑选合适自己的服务商及服务,即构建一个优秀的众包服务搜索系统成为了各平台亟需解决的关键问题之一。为解决当前服务搜索系统未能充分利用包括用户评论在内的现有平台数据和未能对搜索结果精确排序的问题,本文提出了基于用户评论的软件众包智能搜索模型。通过对
Unikernel基于库操作系统技术,将单个应用程序与库操作系统组件编译为虚拟机镜像,可直接在KVM等虚拟化平台上运行,具有体积小、性能好、可针对化定制等优势,是一种有吸引力的针对云计算的操作系统设计。但Unikernel的一大缺点是缺乏多进程支持。最主要的原因是Unikernel是单地址空间设计,且运行在单个CPU特权级上。这大大降低了Unikernel的灵活性和适用性。多进程编程模型帮助应用程
近年来,区块链技术的出现和发展,为供应链领域遇到的鉴权和信息协同等方面问题带来极大的改善。供应链依托区块链的范式,采用私有链或联盟链的形式,利用区块链技术信用的易流转、链上信息难篡改、交易透明化等天然优势,逐步走向数字化智能化。目前,供应链领域合同依赖智能合约实现智能替代合同运行在区块链上,主要存在以下三个问题:首先,供应链参与方之间签订的纸质合同由于文本异构性问题,生成智能合约缺乏统一化描述;其
自然语言代码搜索在软件开发中起着重要作用,它允许程序员以自然语言进行查询,并从Internet或源代码库中获取代码片段。但是,在现有代码搜索方法选择和新技术研究时往往存在困难,因为(1)现有代码搜索方法的实现和评估它们的数据集通常是不公开的,无法选择适合当前场景的代码搜索方法;(2)有些代码搜索方法可能会利用训练数据集或辅助数据源,因此如果没有这些数据集/数据源,就无法真正实现搜索方法,并证明其有