论文部分内容阅读
互联网的蓬勃发展带来网络信息的爆炸式增长,如何快速准确地找到用户需要的信息一直是亟待解决的重大问题。信息搜索是解决信息获取的主要技术之一。传统基于关键词匹配的搜索算法存在正确率和召回率低的问题,其中的一个重要原因是用户表达自己需求的方式与搜索系统中的信息表示方式存在差异。语义搜索借助于知识库理解检索词语义层面的含义,可以通过知识库搜索到更加符合用户意图的结果,是当前研究与应用的热点问题之一。 论文目标是研究基于知识库的语义搜索引擎的若干关键技术,并在智能简历搜索系统中加以应用,更好帮助企业选择合适的人才。论文主要研究以下三个关键技术: (1)提出了基于模式和领域知识库的知识提取方法。其主要是利用半结构化信息模式固定的特点,同时通过其特定领域词典对半结构化信息的特定域进行准确匹配分词,从而提取到有效的知识。 (2)设计了一种基于标签的知识组织方法,主要是基于领域规则对客体多个属性以及属性之间的逻辑关系进行限定,自动为满足限定条件的客体标注统一标签。这样,就能够通过标签获得蕴含的领域规则,省去了领域专家人工判断,提高效率。同时借助于语义标签更加智能的理解检索词,从而提高搜索的精确率。 (3)从标签,SPARQL查询语句,存储方式和多层次缓存机制四个方面设计了语义搜索的性能优化方案。其中,基于标签的优化通过提前为客体打上热门的领域标签,从而缩短查询路径,减少查询时间;基于SPARQL查询语句优化对查询语句顺序重新排列,通过将最具有选择性的三元组和FILTER等语句放在最前面的原则,最小化join操作的数目,提高查询性能;基于存储的优化是将垂直存储和水平存储结合起来,减少join操作;多层次缓存优化通过在多个层次预处理查询的中间数据,并在内存预存热点查询结果,从而简化查询过程,缩短查询时间。 基于上述研究成果,论文设计实现了一个智能简历搜索系统,主要包括知识库的自动构建以及语义搜索,并通过多组实验验证了基于知识库的语义搜索系统的有效性和优越性。