论文部分内容阅读
随着互联网数据的爆发式增长,人们对信息获取、知识习得的需求也越来越高,这种需求一方面体现在对高质量和相关度的信息知识的要求,另一方面体现在对个性化、智能化的高效检索系统的期待。在传统的搜索引擎中,用户还需要对返回的结果做二次筛选,为了满足人们对于知识的智能化获取需求,搜索引擎逐步从关键词匹配搜索,转向面向语义的搜索,问答搜索正是主要的服务形式。与搜索引擎不同,问答系统能直接根据用户的搜索词返回用户想要的结果,更快更准的满足需求。 问答系统目前主要能够解决的是事实型的问题,答案一般是一个实体,本文也主要研究这类问题。针对事实型问题,现有的问答系统主要有两种,一种是基于知识库的问答系统,但这种系统的回答范围受限于知识库大小,并且知识库的构建成本和迁移成本都很高。另一种是基于自由文本的问答系统。 基于自由文本的问答系统代表了未来的方向,本文基于此种方法构建事实型问答系统。在这种问答系统中,有两个关键的步骤和难点,一是如何在大量的候选集中,高效地根据问题进行候选证据的检索排序,二是如何在证据中抽取出准确的答案实体。针对这两个研究重点,本文的具体研究内容如下: (1)提出了基于蕴含推理关系的证据排序方法。目前的证据排序方法,即答句选择方法主要基于关键词匹配或者语义匹配方法,但事实型问答中问题和证据之间的关系不仅限于语义关系,还有逻辑关系。针对事实型问答中,答案存在于候选证据中,因此有效证据能够推理出问题的答案的特点,本文提出了基于蕴含推理关系的证据排序模型,将蕴含推理的思想引入证据排序过程中,以问题与证据的蕴含关系的强弱程度作为证据的排序依据。实验证明,在事实型问答语料下,基于蕴含推理关系的排序方法有一定的效果,即能够把有效证据排在更靠前的位置。 (2)提出了结合依存句法分析的答案抽取方法。针对事实型问答中,问题和证据之间存在的句法结构相似性,本文提出了结合依存句法分析的答案抽取方法,通过序列标注的方法解决答案抽取问题。将问题通过LSTM学习并通过注意力机制表示,和通过依存句法树计算得到的证据中每个词与问题之间的相似度表达,两者一起与证据表达共同进入网络学习,最后用CRF预测序列标签判断答案实体的位置,从而完成答案抽取。实验表明,结合依存句法分析的答案抽取方法本身在答案准确性和F1值上有一定效果,再加上前一阶段的证据排序步骤后效果有进一步提升,并且在系统运行效率上有明显提升。 (3)构建了一个面向自由文本的事实型问答系统。基于前两部分研究内容,本文构建了面向自由文本的事实型问答系统。该系统包括前端界面、信息检索模块、证据排序模块和答案抽取模块。