论文部分内容阅读
近年来,伴随着互联网的快速发展,如何有效获取网络信息和互联网资源的增长之间的矛盾日益突出。通用搜索引擎简单的宽度优先或深度优先搜索策略,由于需要遍历网络中的所有资源,这使得网络爬虫越来越力不从心,已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入的因特网搜索服务,并且对硬件要求低、结果更新也很及时。
面向主题搜索引擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的搜索策略算法作为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆盖范围,增加更新频率,而且还能有效地提高爬行性能和网络带宽的利用率。
主题爬虫的关键在于其搜索策略,其功能是预测从己爬取页面中抽取的ulu、与特定主题的相关性,并提供相关的爬行策略用以指导爬虫的爬行过程。其中的启发信息有页面的文本内容,锚文本,链接结构,兄弟链接和URI结构等,它们对于不同类型页面和不同的特征词有着不同的影响。因此,单一的影响因素作为启发信息,其表现往往不稳定,将这些因素综合起来作为启发信息来指导我们的爬行就变得非常有必要。
本文在开始介绍了搜索引擎的概念和基本功能,分析了搜索引擎中网络爬虫模块的作用,并基于现阶段国内外网络爬虫的研究进展,分析现有网络爬虫不足,针对通用爬虫的局限性和其对互联网的迅速发展越来越力不从心,提出了主题爬虫的概念。主题爬虫的搜索策略是其核心,也是社会研究的热点技术。现有的主题爬虫搜索策略在查全率,查准率,鲁棒性等方面存在不足,本文在分析这些不足的基础上,提出了一种主题爬虫的综合型搜索策略。
最后,进行了综合型搜索策略的算法验证,结果表明我们的搜索策略在有较高的命中率和鲁棒性,以此验证了我们的综合型搜索策略的有效性。