基于Nutch的面向IT科技博客的垂直搜索引擎的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yangjianguo20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网日新月异的发展使得网络上存储的资源越来越多,网页文本、音乐、图片、视频等形式各异的资源充斥其中,难以快速精准的从中找到自己想要的信息资源。这种需求催生了垂直搜索引擎的快速发展。本文首先研究了垂直搜索引擎发展的历史和趋势,之后详细的研究了垂直搜索引擎中涉及到的各种技术,设计并实现了一个面向博客领域的个性化垂直搜索引擎。本文的主要工作主要包括以下几个方面:(1)分析并对比了通用网络爬虫和垂直网络爬虫的系统架构和基本原理,对主题判定算法进行了研究,归纳了用户的搜索行为对垂直搜索引擎产生的反馈作用,研究并归纳了常见加密算法的性能和特征;(2)设计并实现了一个基于Nutch的分布式主题爬虫模块。首先详细分析了 Nutch的架构和工作原理,提出了一种能够将通用爬虫Nutch改造成垂直网络爬虫的方案。然后基于朴素贝叶斯文本分类算法实现了贝叶斯文本分类插件,在贝叶斯文本分类插件工作过程中加入了 URL主题判定模块,加深了 Nutch的爬行深度,并利用Nutch的插件机制将其引入到Nutch的工作流中,将通用爬虫Nutch改造成为垂直网络爬虫;(3)设计并实现了一个基于Solr的个性化用户查询模块。首先研究了用户搜索行为信息对用户搜索可能造成的影响,设计了一个基于Solr的个性化用户查询模块,该模块能够将用户的搜索行为收集入库,利用向量空间模型算法从中分析出用户的兴趣模型,并根据兴趣模型对用户的当前查询做出查询扩展,将Solr改造成为个性化查询模块;(4)在设计个性化用户查询模块时,考虑到对用户隐私的保护,采用安全套接层协议SSL对用户行为信息进行传输,然后利用数据库加解密模块对用户的行为信息进行AES加密,并将加密后的数据存储到数据库中,保护了用户的隐私安全;(5)设计并实现了基于Nutch的面向IT科技博客领域的垂直搜索引擎,并对搜索引擎进行了相关实验。实验表明,本文提出的设计方案是有效的,虽然为了实现主题过滤功能,爬虫的爬取效率有所降低,但是相较于原有的Nutch系统和通用搜索引擎百度,查准率得到了较大的提升。
其他文献
提起国产纺机.有一个在N个场合被津津乐道地举了N次的例子是这样的:如果在十年前想投资一套年产6万吨化纤聚酯设备,则要完全依赖进口,手里没有10亿人民币免谈;而现在,6万吨已
贯彻十六大十六届三中全会和中央经济工作会议精神.在新世纪纺织行业要走出一条科技含量高经济效益好资源消耗低、环境污染少、人力资源得到充分发挥的新型工业化道路。走新型
期刊
钾是苹果果实生长发育中必不可少的大量元素之一,与果实品质密切相关,研究钾对果实品质及糖、酸代谢的关系具有重要意义。本试验以5-6年生盆栽“嘎拉”苹果/M26自根苹果苗为
本文主要尝试对《共产党宣言》(以下但凡提到该著作皆简称《宣言》)中的社会发展思想进行系统的归纳和总结。全文分为五大部分:绪论部分作为本文的开篇,主要介绍了本文的选题