论文部分内容阅读
近几年,互联网革命式的发展产生了海量的数据。日益剧增的互联网数据带给搜索引擎的既是机遇,又是挑战。搜索引擎,尤其是垂直搜索引擎,作为互联网数据检索的重要工具,已经受到越来越多的关注。本文以领域本体为基础,构建了一种基于领域本体的垂直搜索引擎。在设计本文的垂直搜索系统过程中,提出了基于领域本体的搜索查询扩展的方法,该方法挖掘查询关键词的语义信息以提供更加专业化的相关扩展词集;结合领域本体的知识对搜索结果排序,改进相关性排序算法,优化检索的结果。以中医按摩领域为实际研究领域,构建中医按摩领域的垂直搜索引擎。本文的主要工作和研究内容包括:第一,本文提出了一种基于领域本体的搜索关键词扩展的方法。该方法首先收集大量的领域内相关数据,包括电子文档和开放的互联网数据。通过对数据的处理,训练Word2vec词向量模型,结合Word2vec和同义词词林设计相似度计算方法。根据关键词与本体节点的关系,扩展得到初始词集;根据候选词语关键词的相似度进一步筛选得到扩展词集;第二,结合领域本体,计算网页文本的领域隶属度,改进相关性排序算法。通过抽取领域本体的概念节点,构建领域本体的词表。计算领域本体中概念节点的术语权重,然后统计网页文档中出现的术语频次,计算网页文档的领域隶属度,将网页的隶属度作为排序的重要因素,从而改进相关性排序算法;第三,设计了基于中医按摩领域本体的垂直搜索引擎。通过构建中医按摩领域本体,并结合领域本体设计查询扩展模块和改进的排序算法,基于开源的Lucene搜索引擎框架,设计并实现了基于中医按摩领域的垂直搜索引擎。