中文问答系统的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:miszha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答系统是信息检索分支,属于精确检索。问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术,是国内外信息技术的研究热点。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。问答系统是自然语言处理研究的应用系统,它包括了自然语言处理、信息检索等方面的基本技术,例如词法分析,大规模文档的索引建立、检索、排序等等。本文中,问答系统分为查询问句分析、信息检索、相似度计算三大部分。查询问句分析在问答系统中对问句理解起着重要的作用。一般的,查询句分析需要进行词法、句法分析以及查询句分类、关键词提取与扩展等。本文讨论了基于词法分析的查询问句分析技术,构建了针对问答系统领域的停用词词表,根据分词、词性标注、名实体识别并结合停用词词表来抽取关键词,并根据词性设置不同关键词的重要程度和对关键词进行适当的扩展。信息检索模块是问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响。本文中对布尔模型、向量空间模型、概率模型做了简要介绍,为了满足问答系统高效、快速的需求,实现了基于向量空间模型的问答对检索系统。为了能够将与查询问句最相关的问答对返回出来,本文中设计了一种基于统计信息和语言学知识相结合的问句相似度计算方法。基于向量空间模型的相似度原理,本文改进了向量空间模型的问句相似度计算方法,使其适合问句匹配;并且计算了问句之间的语义相似度。并将这两种相似度结合作为查询问句和问答对之间的最后相似度,这种问句相似度的计算方法能够更好的返回问句匹配答案。最后,我们抽取14个领域类别的测试问题作为语料进行测试,通过对实验结果的分析,可以看出本文所实现的中文问答系统具有高效、准确、快速等特性。
其他文献
学位
近年来,互联网不断发展和电子商务普及,为企业发展带来机遇,也向用户提出挑战,如“信息过载”。Web商品信息的爆炸式增长使人们搜索所需信息愈发艰难。在诸多技术中,推荐系统
语义Web的目标是使得Web上的信息具有计算机可以理解的语义,语义原生XML数据库系统(简称SNAX)的目的在于构建一个提供研究语义Web的各种理论、技术和方法的平台。其中的本体
水泥基压电传感器是济南大学山东省水泥工程技术研究中心开发研制的,该传感器与传统压电传感器相比具备很多优点。水泥基压电传感器与混凝土材料具有良好的相容性,这样就大大提
随着网络业务的不断发展,Internet上出现了大量的网络数据中心。这些数据中心为不同的公司、企事业单位提供服务器业务托管和网络接入等各种服务。一些网络信息公司其至拥有自
近年来,复杂网络系统已经融入到人们生产生活的方方面面。作为一个新兴且活跃的科学研究领域,复杂网络早已引入到在现实世界网络的实证研究。目前,在计算机科学、社会科学、
局部保持的典型相关分析(LPCCA)是一种能够解决大量非线性问题的新型算法。它通过局部线性的方法达到解决非线性问题的目的,不但能保持各样本集的局部结构信息,而且能够得到
互联网的高速发展给人们的生活带来了许许多多的便利,但是同时也为网络犯罪分子提供了更多途径,所以引导青少年健康上网,依法严厉打击淫秽色情信息传播成为了互联网工作不可
随着信息技术的不断发展,不断产生的具有分布、异构、海量等特征的数据源对存储资源、计算资源和网络资源等提出了极高的性能需求,也为以往的数据资源管理技术带来了巨大的挑战
学位
桥梁是投资巨大,使用期长的大型基础设施,因此它的安全性对国民经济有着举足轻重的影响。我国现有大小公路桥5000余座,在运营过程中,由于荷载、疲劳、腐蚀和材料老化等不利因素的