论文部分内容阅读
随着信息技术的发展。尤其是互联网的普及,互联网上的信息呈现爆炸性增长,可获取的信息资源的种类和数量不断扩大,人们已经从以往的“信息匮乏”状态进入“信息过剩”状态,基于搜索引擎的信息检索已经成为人们获得信息的重要途径。但是目前基于关键词的搜索引擎技术有很多不足之处,结合自然语言处理的自动问答系统成为研究的热点。在研究自动问答系统的时候,人们发现面向开放领域的自动问答系统效果不是很乐观,很难成为实用系统。本文提出的解决思路是:结合领域知识,研究和开发受限领域的自动问答系统,专注于解决领域内的语义检索问题。结合领域知识的用户检索请求分析是受限领域自动问答系统的关键步骤之一,本文围绕受限领域内用户检索请求分析做了以下工作。
(1)阐述了面向领域的用户请求分析处理框架及相关的处理技术
分析了面向受限领域用户检索请求分析过程,其中包括检索请求预处理
、关键词提取、关键词扩展、用户问题分类以及用户问题相似度计算等关键技术。面向受限领域信息检索的应用需求,本文讨论了提供语义支撑的必要性和可行性,并选择了《知网》作为一般语义资源,分析了基于本体的医药领域知识库建设方案。
(2)设计了医药领域用户问题的分类体系合理的分类体系是用户问题分类研究的基础,是自动问答系统准确性的保障。开放领域的用户问题主要关注时间、地点、事件和人物等问题问点,而医药领域的用户问题,由于其领域的特殊性,关注的是疾病、症状以及治疗方法等中心语义,所以开放领域的问题分类体系在医药领域自动问答系统中并不适用。本文还在分类体系中引入多个分类维度以优化处理流程,提高答案生成的准确率。本文结合医药领域的特点从“处理策略”、“问题问点”以及“问题答案格式”三个维度设计了医药领域用户问题的分类体系。
(3)提出基于本体的医药领域用户问题特征提取方法,通过实验确定了不同分类维度下分类器和特征提取方法的优化组合问题分类有助于确定自动问答系统的处理策略、提高检索结果的准确度、确定回答问题的方式。目前基于语料库的问题分类方法中存在多种分类器以及特征提取方法。在充分分析医药领域用户问题的基础上,本文提出了基于本体的医药领域用户问题特征提取方法。此外,本文分别基于词袋模型特征提取法、中心词距离特征提取法、基于汉语依存句法分析的特征提取法以及基于领域本体的特征提取法四种方法进行特征提取,在不同分类器的条件下,对医药领域用户问题进行分类实验,并最终确定了不同分类维度下的优化技术组合,为系统的后续处理,提供了较高准确性的问题类型判定结果。
(4)提出一种基于词汇语义和本体概念的医药领域用户问题相似度计算方法常问问题库是受限领域自动问答系统中一个重要的组成部分,其中用户问题的相似度匹配处理是关键技术之一。本文借鉴目前句子间相似度判定的一些方法,改进了目前常用的《知网》中义原相似度计算方法,同时改进使用矩阵寻找最优匹配词对的算法,充分结合问句特征,引入了基于本体概念和词汇语义的问题相似度计算方法。该方法结合了问句特征、词汇语义以及医药领域知识,并在寻找词汇间最优匹配时结合了句子长度、最大匹配词对以及匹配密度等因素,实验表明本文提出的算法比较有效。关键词:信息检索;问答系统;特征提取;领域本体;问题相似度;《知网》