论文部分内容阅读
文本理解当前是自然语言处理领域极具挑战性的任务,其关键目标是使得机器具备类似于人的阅读能力,让机器算法模型在理解文本内容的基础上,正确给出与文本内容相关的问题的答案。对于文本内容的理解能力的提升,将会对于信息检索、对话系统、智能客服等应用领域有关键性意义。文本理解技术的发展成熟,将会彻底改变人机交互的体验,实现真正意义的智能化。相比于选择填空型文本理解任务,片段抽取型的文本理解任务更具有挑战性和代表性,目前正在受到越来越多的重视。本文契合当前的研究潮流,也以片段抽取型的文本理解任务作为研究重点,探索文本理解领域的新技术和新方法。当前的大规模文本理解任务数据集使得构建复杂的深层次的神经网络模型成为可能,本文将采用深度学习方法,构建文本理解任务模型对原文、问题进行抽象表示并预测对应的答案。当前的文本理解模型主要关注于词维度的语义匹配,返回原文中与提问内容语义相关性最大的部分作为答案。这种策略一般情况下能够正确回答提问,但是由于没有考虑提问句子的整体语义,可能导致模型不能理解真正的提问意图,最后返回错误的答案,即与提问句子中某部分内容相关性最大的原文片段并非是整个提问句子的答案。本文提出了提问语句语义总结机制和原文内容语义过滤机制,以使得模型能够更准确地理解提问意图。本文提出的模型在验证数据集上有明显的提升效果,答案的精确匹配率提升了 1.1%,答案的模糊匹配率提升了0.7%。另外在基于文本理解的自动问答算法的研究基础上,本文实现了一个自动问答算法原型系统以展示我们的研究成果。