论文部分内容阅读
伴随着WWW的发展,基于WWW的信息获取技术——搜索引擎技术出现并得到迅速发展。由于互联网的开放性,使搜索引擎可以面向普通用户,用户需求进一步推动其发展。个性化搜索引擎正是在考虑用户兴趣差异的基础上,借助数据挖掘技术对用户搜索的信息进行再处理,从而使返回给用户的搜索结果更加贴近用户真实需求。随着信息爆炸性增长及信息多元化发展,个性化搜索引擎逐渐成为研究热点和发展趋势。本文对它的主要技术进行研究并实现了一个基于Lucene的个性化搜索引擎原型系统。 本文针对个性化搜索引擎所做的主要工作体现在以下几个方面: 1.分析个性化搜索引擎的体系结构。个性化搜索引擎在体系结构上不同与传统搜索引擎的部分在于其个性化模块部分,该模块负责用户兴趣模型的建立和更新、网页的个性化排序。 2.用户兴趣模型的建立。个性化搜索引擎的关键就在于用户兴趣信息的获取,本文通过分析用户历史搜索记录,采用TF-IDF算法得出用户特征词的权重值,若该特征词的权重值大于某个阈值时,将该特征词设定为用户兴趣词,将其保存到用户兴趣库。 3.提出 SLR排序算法。该算法包括两个主要计算过程,一是计算用户兴趣词和页面内容的相似度,二是通过分析页面的入链和出链数量计算页面的链接得分,这两个计算步骤分别从页面内容和页面结构上分析了该页面对于用户的重要程度,从而使返回的页面排序更加符合用户的需求。 4.实现了一个基于 Lucene的个性化搜索引擎原型系统。该系统选择扩展性好的Hertitrix抓取网页信息;使用Lucene对网页信息建立索引及对网页信息进行检索。通过对该系统的性能检测,有较好的准确率,基本达到本课题的预期目标。