面向医药领域的用户检索请求分析技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:calvin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展。尤其是互联网的普及,互联网上的信息呈现爆炸性增长,可获取的信息资源的种类和数量不断扩大,人们已经从以往的“信息匮乏”状态进入“信息过剩”状态,基于搜索引擎的信息检索已经成为人们获得信息的重要途径。但是目前基于关键词的搜索引擎技术有很多不足之处,结合自然语言处理的自动问答系统成为研究的热点。在研究自动问答系统的时候,人们发现面向开放领域的自动问答系统效果不是很乐观,很难成为实用系统。本文提出的解决思路是:结合领域知识,研究和开发受限领域的自动问答系统,专注于解决领域内的语义检索问题。结合领域知识的用户检索请求分析是受限领域自动问答系统的关键步骤之一,本文围绕受限领域内用户检索请求分析做了以下工作。 (1)阐述了面向领域的用户请求分析处理框架及相关的处理技术 分析了面向受限领域用户检索请求分析过程,其中包括检索请求预处理 、关键词提取、关键词扩展、用户问题分类以及用户问题相似度计算等关键技术。面向受限领域信息检索的应用需求,本文讨论了提供语义支撑的必要性和可行性,并选择了《知网》作为一般语义资源,分析了基于本体的医药领域知识库建设方案。 (2)设计了医药领域用户问题的分类体系合理的分类体系是用户问题分类研究的基础,是自动问答系统准确性的保障。开放领域的用户问题主要关注时间、地点、事件和人物等问题问点,而医药领域的用户问题,由于其领域的特殊性,关注的是疾病、症状以及治疗方法等中心语义,所以开放领域的问题分类体系在医药领域自动问答系统中并不适用。本文还在分类体系中引入多个分类维度以优化处理流程,提高答案生成的准确率。本文结合医药领域的特点从“处理策略”、“问题问点”以及“问题答案格式”三个维度设计了医药领域用户问题的分类体系。 (3)提出基于本体的医药领域用户问题特征提取方法,通过实验确定了不同分类维度下分类器和特征提取方法的优化组合问题分类有助于确定自动问答系统的处理策略、提高检索结果的准确度、确定回答问题的方式。目前基于语料库的问题分类方法中存在多种分类器以及特征提取方法。在充分分析医药领域用户问题的基础上,本文提出了基于本体的医药领域用户问题特征提取方法。此外,本文分别基于词袋模型特征提取法、中心词距离特征提取法、基于汉语依存句法分析的特征提取法以及基于领域本体的特征提取法四种方法进行特征提取,在不同分类器的条件下,对医药领域用户问题进行分类实验,并最终确定了不同分类维度下的优化技术组合,为系统的后续处理,提供了较高准确性的问题类型判定结果。 (4)提出一种基于词汇语义和本体概念的医药领域用户问题相似度计算方法常问问题库是受限领域自动问答系统中一个重要的组成部分,其中用户问题的相似度匹配处理是关键技术之一。本文借鉴目前句子间相似度判定的一些方法,改进了目前常用的《知网》中义原相似度计算方法,同时改进使用矩阵寻找最优匹配词对的算法,充分结合问句特征,引入了基于本体概念和词汇语义的问题相似度计算方法。该方法结合了问句特征、词汇语义以及医药领域知识,并在寻找词汇间最优匹配时结合了句子长度、最大匹配词对以及匹配密度等因素,实验表明本文提出的算法比较有效。关键词:信息检索;问答系统;特征提取;领域本体;问题相似度;《知网》
其他文献
家庭暴力是一个全球性现象,世界各国都不同程度地存在.家庭暴力是发生在家庭内部的暴力行为,严重影响家庭这一社会基本单元的稳定与和谐,也是我国构建和谐社会的重大隐患.本
本文在Sprott的研究基础上,运用蒙特卡罗算法搜索参数向量生成了大量的Icon对称群混沌吸引子.由于蒙特卡罗搜索算法是随机搜索参数向量,无法直观表现动力系统参数空间上参数
经典的计算机数控系统(CNC,Computerized Numerical Control)普遍采用模拟电压输出驱动伺服单元.随着数字电路技术的蓬勃发展,研究全数字化数控系统已经成为必然的趋势.蓝天
该论文首先介绍了国内芯片生产的概况,以及该课题的研究和开发的必要性,然后详细介绍了系统的硬件组成、图像识别前的图像处理、芯片的缺陷检测几个方面.该文分析了计算机视
以运动平台为载体的雷达,如机载、星载、车载和舰载雷达,它们一般都需要实现空域指向稳定,即雷达天线波束的空间指向不能因为载体的运动而改变.要判定雷达的空间指向位置是否
在传统的计算模式中,用户关注如何使用计算机;用户格式化的输入是计算机提供服务的前提。随着时代的发展,人们希望计算机变得更易于使用,并能够主动、智能地为用户提供服务。
据川报总编室负责人说,川报于去年十二月二十五日刊登“有奖征求读者意见”启事后,得到广大群众热烈支持,截至今年二月十日止,已收到来信两千多封。编委会组织专人及时处理
  本文通过对现实电子采购网上存在的安全威胁进行分析,提出和设计实现了上述目标的解决方案。  本文实现的解决方案涉及到加解密算法,PKI架构,SSL协议和身份认证技术。文中
随着软件应用的日益广泛及重要性的不断增加,人们对软件质量的要求也越来越高,可靠性作为衡量软件质量的重要特性,其定量评估和预测已成为人们关注和研究的焦点.实践证明,软件可
随着计算技术和远程通讯技术的迅速发展,出现了很多复杂的分布式应用系统。为了简化异构环境下分布式应用的集成和互操作,自上世纪90年代开始,工业界先后出现了许多功能强大的中