基于知识库的语义搜索系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:mwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的蓬勃发展带来网络信息的爆炸式增长,如何快速准确地找到用户需要的信息一直是亟待解决的重大问题。信息搜索是解决信息获取的主要技术之一。传统基于关键词匹配的搜索算法存在正确率和召回率低的问题,其中的一个重要原因是用户表达自己需求的方式与搜索系统中的信息表示方式存在差异。语义搜索借助于知识库理解检索词语义层面的含义,可以通过知识库搜索到更加符合用户意图的结果,是当前研究与应用的热点问题之一。  论文目标是研究基于知识库的语义搜索引擎的若干关键技术,并在智能简历搜索系统中加以应用,更好帮助企业选择合适的人才。论文主要研究以下三个关键技术:  (1)提出了基于模式和领域知识库的知识提取方法。其主要是利用半结构化信息模式固定的特点,同时通过其特定领域词典对半结构化信息的特定域进行准确匹配分词,从而提取到有效的知识。  (2)设计了一种基于标签的知识组织方法,主要是基于领域规则对客体多个属性以及属性之间的逻辑关系进行限定,自动为满足限定条件的客体标注统一标签。这样,就能够通过标签获得蕴含的领域规则,省去了领域专家人工判断,提高效率。同时借助于语义标签更加智能的理解检索词,从而提高搜索的精确率。  (3)从标签,SPARQL查询语句,存储方式和多层次缓存机制四个方面设计了语义搜索的性能优化方案。其中,基于标签的优化通过提前为客体打上热门的领域标签,从而缩短查询路径,减少查询时间;基于SPARQL查询语句优化对查询语句顺序重新排列,通过将最具有选择性的三元组和FILTER等语句放在最前面的原则,最小化join操作的数目,提高查询性能;基于存储的优化是将垂直存储和水平存储结合起来,减少join操作;多层次缓存优化通过在多个层次预处理查询的中间数据,并在内存预存热点查询结果,从而简化查询过程,缩短查询时间。  基于上述研究成果,论文设计实现了一个智能简历搜索系统,主要包括知识库的自动构建以及语义搜索,并通过多组实验验证了基于知识库的语义搜索系统的有效性和优越性。
其他文献
近年来,随着软件行业的发展,软件项目的粒度在减小,开发团队规模在缩小,开发周期的日益缩短,以极限编程(XP,eXtreme Programming)为代表的敏捷软件开发过程的应用越来越广泛,但遗憾
学位
工作日志是软件外包项目监控项目进展的一个重要手段,它由工作人员填写,汇报项目进展状况和遇到的问题,汇报频度高信息量大,是项目进展月报和周报的补充。工作日志的质量一定程度
管理信息系统(MIS)是一个由人、计算机和管理软件等组成的能进行信息的收集、传递、存储、加工和使用的系统。随着科技的发展,信息的日益膨胀,企业信息化成了企业在竞争中处
面对规模庞大并且每天都在飞速增长的互联网,Web挖掘技术的研究和探索变得越来越重要。Web挖掘一般分为Web内容挖掘、Web结构挖掘和Web使用记录挖掘三个研究方向。在Web结构挖
计算机技术目前在企事业单位的广泛应用极大地提高了这些单位的管理水平,但由于业务需求的变化,造成应用系统的许多功能和业务流程不断变化,其中许多业务流程本身较复杂(如涉及
开放式数控系统是当前数控技术的研究热点。在发展高速高效高精度及智能化等性能的同时,功能的发展也要求越来越高,具体体现在尽量用软件来实现数控的所有功能,使硬件规模达
面向方面软件开发(AOSD)是一种基于关注点分离的软件开发新方法,它使用aspect封装横切关注点,解决了面向对象技术在进行非功能需求处理上的局限性。与传统的OO技术相比,AOSD从软
中国网通长途数据网是一个全国性的、以ATM技术为基础的电信级服务网络,是中国网通集团电信基础网络的有机组成部分,有效管理长途数据网是中国网通集团提高用户服务质量的重要
学位
本文在总结了访问控制相关的理论和虚拟企业特点的前提下,提出了基于任务的虚拟企业访问控制模型,实现了虚拟企业基于任务的协作。 模型将访问控制的角色职责分离和任务结合
软件复用是解决软件危机、实现软件产业工业化生产方式的有效途径。软件复用活动包含两个相关的阶段:可复用软件资产的生产阶段和基于可复用软件资产的应用系统开发阶段。领域