面向自由文本的事实型问答系统关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:a692039471
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据的爆发式增长,人们对信息获取、知识习得的需求也越来越高,这种需求一方面体现在对高质量和相关度的信息知识的要求,另一方面体现在对个性化、智能化的高效检索系统的期待。在传统的搜索引擎中,用户还需要对返回的结果做二次筛选,为了满足人们对于知识的智能化获取需求,搜索引擎逐步从关键词匹配搜索,转向面向语义的搜索,问答搜索正是主要的服务形式。与搜索引擎不同,问答系统能直接根据用户的搜索词返回用户想要的结果,更快更准的满足需求。  问答系统目前主要能够解决的是事实型的问题,答案一般是一个实体,本文也主要研究这类问题。针对事实型问题,现有的问答系统主要有两种,一种是基于知识库的问答系统,但这种系统的回答范围受限于知识库大小,并且知识库的构建成本和迁移成本都很高。另一种是基于自由文本的问答系统。  基于自由文本的问答系统代表了未来的方向,本文基于此种方法构建事实型问答系统。在这种问答系统中,有两个关键的步骤和难点,一是如何在大量的候选集中,高效地根据问题进行候选证据的检索排序,二是如何在证据中抽取出准确的答案实体。针对这两个研究重点,本文的具体研究内容如下:  (1)提出了基于蕴含推理关系的证据排序方法。目前的证据排序方法,即答句选择方法主要基于关键词匹配或者语义匹配方法,但事实型问答中问题和证据之间的关系不仅限于语义关系,还有逻辑关系。针对事实型问答中,答案存在于候选证据中,因此有效证据能够推理出问题的答案的特点,本文提出了基于蕴含推理关系的证据排序模型,将蕴含推理的思想引入证据排序过程中,以问题与证据的蕴含关系的强弱程度作为证据的排序依据。实验证明,在事实型问答语料下,基于蕴含推理关系的排序方法有一定的效果,即能够把有效证据排在更靠前的位置。  (2)提出了结合依存句法分析的答案抽取方法。针对事实型问答中,问题和证据之间存在的句法结构相似性,本文提出了结合依存句法分析的答案抽取方法,通过序列标注的方法解决答案抽取问题。将问题通过LSTM学习并通过注意力机制表示,和通过依存句法树计算得到的证据中每个词与问题之间的相似度表达,两者一起与证据表达共同进入网络学习,最后用CRF预测序列标签判断答案实体的位置,从而完成答案抽取。实验表明,结合依存句法分析的答案抽取方法本身在答案准确性和F1值上有一定效果,再加上前一阶段的证据排序步骤后效果有进一步提升,并且在系统运行效率上有明显提升。  (3)构建了一个面向自由文本的事实型问答系统。基于前两部分研究内容,本文构建了面向自由文本的事实型问答系统。该系统包括前端界面、信息检索模块、证据排序模块和答案抽取模块。
其他文献
随着虚拟现实技术、网络技术、计算机图形学等学科技术的迅猛发展,单机运行的三维可视化系统已经不再满足人们的需求,基于网络的三维可视化系统已经成为虚拟现实和虚拟景观中
随着高校教学管理信息化的日益发展与日趋成熟,基于教务管理信息系统形成的海量历史数据进行深层次分析与应用,对提高学校教学管理与决策的质量与水平具有积极而深远意义。
Web Services技术是一个简单的、易扩展的技术,它为广域、异构的分布式应用程序提供了便于互操作的平台,被广泛用于构建网络系统的基本框架。   Web Services技术之所以具有
智能化是人对计算机系统的基本要求,将智能技术引入人机交互研究中,产生了智能交互技术。智能交互是提高人机交互效率、使计算机提供的服务更好的满足用户个性化需求的重要手段
与传统软件系统所处的环境不同,Internet这一新的计算环境具有开放、动态、难控的特点。其上的软件在运行过程中经常面临用户需求和运行环境等要素的变化。要在这样的一种环
信息技术发展,使得高校各部门之间数据交换日趋频繁,基于不同时期、采用不同技术构建的部门应用系统数据需要共享与交换,以实现学校或企业整体管理与决策的科学化、自动化。为了
近年来,随着信息技术及应用领域的不断发展,人脸检测与跟踪技术成为计算机应用领域的一个研究热点,不断有新的研究成果出现。本文从人脸检测和人脸跟踪两个方面展开研究,并应
基于 WEB 的应用服务系统,在 Internet 技术推广以来,得到迅速发展。近年来,各高校也纷纷开展网络信息化建设,校园网上运行的办公自动化、综合教务管理、财务管理、人力资源、网络教学、综合信息服务等系统在为学校提供信息服务的同时,也提高了管理人员的素质,并正在改变着人们的管理观念。然而,在各种管理服务系统中,却甚少有专门针对学生管理工作的网络服务系统。国内各高校普遍对此投入不多,相关的文献资
随着信息化的不断发展,企业对应用集成和应用互操作性的要求越来越高,但是由于不同应用系统间的异构性,使得企业间及部门间的数据交换、集成面临着很大的困难,极易导致信息孤岛的
步态识别是生物特征识别技术中的一个新兴领域。它旨在根据人们的走路姿势实现对个人身份的识别或生理、病理及心理特征的检测,成为近年来生物医学信息检测领域备受关注的前