论文部分内容阅读
问答系统是信息检索分支,属于精确检索。问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术,是国内外信息技术的研究热点。目前,国内外有很多的科研机构参与了英文问答技术的研究,甚至己经有相对成熟的英文问答系统,但是参与中文自动问答技术研究的科研机构并不是很多,而且基本没有成型的中文问答系统。本文正是对中文问答技术研究的一个探索。问答系统是自然语言处理研究的应用系统,它包括了自然语言处理、信息检索等方面的基本技术,例如词法分析,大规模文档的索引建立、检索、排序等等。本文中,问答系统分为查询问句分析、信息检索、相似度计算三大部分。查询问句分析在问答系统中对问句理解起着重要的作用。一般的,查询句分析需要进行词法、句法分析以及查询句分类、关键词提取与扩展等。本文讨论了基于词法分析的查询问句分析技术,构建了针对问答系统领域的停用词词表,根据分词、词性标注、名实体识别并结合停用词词表来抽取关键词,并根据词性设置不同关键词的重要程度和对关键词进行适当的扩展。信息检索模块是问答系统中最重要的模块之一,检索的结果对后面的处理,以至找到问题的正确答案都有很大的影响。本文中对布尔模型、向量空间模型、概率模型做了简要介绍,为了满足问答系统高效、快速的需求,实现了基于向量空间模型的问答对检索系统。为了能够将与查询问句最相关的问答对返回出来,本文中设计了一种基于统计信息和语言学知识相结合的问句相似度计算方法。基于向量空间模型的相似度原理,本文改进了向量空间模型的问句相似度计算方法,使其适合问句匹配;并且计算了问句之间的语义相似度。并将这两种相似度结合作为查询问句和问答对之间的最后相似度,这种问句相似度的计算方法能够更好的返回问句匹配答案。最后,我们抽取14个领域类别的测试问题作为语料进行测试,通过对实验结果的分析,可以看出本文所实现的中文问答系统具有高效、准确、快速等特性。