抽取式中文机器阅读理解研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yyk20071999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能理论和技术的飞速发展,机器阅读理解成为学术界和工业界研究的热点之一。机器阅读理解,是由计算机自动根据给定的文本来回答用户所提出的问题。机器阅读理解不仅能提升问答系统的准确度和丰富度,而且还可以作为衡量机器是否能理解人类语言的标准之一。机器在进行阅读理解时需要具备两个方面的能力:1)尽可能回答有答案的问题,2)尽可能识别无答案的问题。尽管机器阅读理解在近几年取得了突破性的进展,但是仍然存在一些不足,例如:1)当前方法侧重于提升通用预训练语言模型的表示能力,并没有针对机器阅读理解的特点进行优化,导致其回答问题的能力有所欠缺;2)当前方法假设给定文本中一定存在答案,无法有效地识别无答案的问题。针对以上两点不足,本文提出基于联合注意力机制的机器阅读理解模型来提升回答问题的能力,以及基于推理和验证的机器阅读理解模型来提升识别无答案问题的能力。本文主要工作如下:(1)本文提出了一个基于联合注意力机制的机器阅读理解模型(JointAtt-MRC),在预训练语言模型的网络结构后面添加信息交互层来加强模型对文本的表示能力,提高模型在机器阅读理解上的表现。该模型不仅通过双向长短期记忆网络缓解预训练语言模型对于局部依赖信息捕获能力不足的问题,而且使用联合注意力机制强化自注意力机制的权重表示。针对中文机器阅读理解数据集规模比较小、结构不统一的问题,本文采用机器翻译的方式,将英文机器阅读理解数据集SQuAD转换成中文,以此构建了一个中文机器理解数据集--Chinese-SQuAD,数据量达到11万,数据集格式与SQuAD2.0保持一致。实验结果表明,相比基于标准预训练语言模型的机器阅读理解模型,JointAtt-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(2)本文提出了一个基于推理和验证的机器阅读理解模型(InferVerif-MRC),在单一机器阅读理解模型的前面与后面,添加额外的前置推理器与后置验证器,提高识别无答案问题的准确度。人在做阅读理解时,第一步通读全文,判断能否从文章中找到问题的答案;第二步精读文章,寻找问题的答案;第三步验证找出答案的合理性。一般端到端的机器阅读理解模型类似于第二步,精读文章去寻找答案。InferVerif-MRC模拟第一步和第三步,通过前置推理器(通读)和后置验证器(验证合理性)来提升模型识别无答案问题的能力。实验结果表明,相比单一的机器阅读理解模型,InferVerif-MRC在CJRC和Chinese-SQuAD数据集上取得了更好的表现。(3)本文构建了一个开放域中文机器阅读理解系统,能从大规模非结构化的文本中寻找任意领域问题的答案。系统结合信息检索与机器阅读理解技术从文档数据库和互联网中寻找问题的答案,能得到实时的、较准确的答案。基于知识图谱的问答需要大规模的知识图谱,基于检索的问答需要大量的问答对,基于生成的问答回复不准确和丰富,而基于机器阅读理解的问答系统不需要大规模结构化的文本,就能得到较为准确的答案。
其他文献
近年来GPS嵌入设备、无线设备的流行使得定位技术迅速发展,记录了大量用户的历史移动信息。这些信息中包含着丰富的内容,例如用户的日常行为、兴趣爱好等。如何充分的利用这
民办继续教育类培训机构是我国教育体系的必要补充和重要组成部分;这类培训机构的价值在于帮助成人适应社会发展,促进成人继续学习、终身学习。在信息化、智能化迅速到来的时
随着我们国家经济实力的迅猛发展和科技水平的不断上升,新媒体技术也逐渐发展壮大了起来,同时也时刻影响着大学生思想政治教育。怎样更好地在大学生思想政治教育中应用新媒体
近几年来"群众评议机关"活动中社会各界人士对公安机关的批评、建议和执法考评、行政复议和信访案件的办理过程中反映出的问题来看,一些地方,一些警种在执法活动的各个环节中
中密度纤维板是以小径级原木、采伐、加工剩余物以及非木质植物纤维为原料,经切片、蒸煮等工艺施加脲醛树脂或其他适用的胶粘剂,再经热压后制成的一种人造板材。在家具、建筑
水下图像处理技术是现今水下图像应用领域研究最多的课题之一,而推进水下图像处理技术进步的关键之一是水下图像的质量评价。水下图像质量评价发展历史较短,研究较少,目前针
我国教育改革的实施,人们越来越重视身体的健康发展,健美操成为很多人喜爱的运动项目。近年来健美操在我国中小学逐渐盛行起来,受到广大师生的喜爱,校园中运动会、联欢会等节
随着新课改的逐步实施,立德树人成为了教育根本任务,它有助于培养德智体美劳全面发展的社会个体。传统的思想政治课教学不能很好地实现这一根本任务,学生也欠缺学以致用的能
随着计算机科学技术、数学分析和物理学等学科的成熟与发展,偏微分方程技术运用于图像处理领域获得了国内外的广泛关注。在图像处理领域,图像分割和图像去噪是图像处理技术的
纳米压印光刻技术是最有前景的纳米加工技术之一,作为下一代半导体光刻技术,具有低成本、高分辨率和高通量的特征,要实现其在纳米光电子学以及生物医学器件的应用,需要克服纳