主题爬虫的综合型搜索策略研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:lggu770621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着互联网的快速发展,如何有效获取网络信息和互联网资源的增长之间的矛盾日益突出。通用搜索引擎简单的宽度优先或深度优先搜索策略,由于需要遍历网络中的所有资源,这使得网络爬虫越来越力不从心,已经不能满足人们对个性化信息检索服务日益增长的需要。近年来,面向主题的搜索引擎应运而生,它能够提供分类更细致精确、数据更全面深入的因特网搜索服务,并且对硬件要求低、结果更新也很及时。   面向主题搜索引擎的核心组成部分是主题爬虫。主题爬虫是一种可以自动采集网页的程序,其目标是搜索网络中属于预定主题的那一部分网页子集。主题爬虫的搜索策略算法作为主题搜索引擎技术的关键,对其进行研究不但可以扩大所搜索主题的资源覆盖范围,增加更新频率,而且还能有效地提高爬行性能和网络带宽的利用率。   主题爬虫的关键在于其搜索策略,其功能是预测从己爬取页面中抽取的ulu、与特定主题的相关性,并提供相关的爬行策略用以指导爬虫的爬行过程。其中的启发信息有页面的文本内容,锚文本,链接结构,兄弟链接和URI结构等,它们对于不同类型页面和不同的特征词有着不同的影响。因此,单一的影响因素作为启发信息,其表现往往不稳定,将这些因素综合起来作为启发信息来指导我们的爬行就变得非常有必要。   本文在开始介绍了搜索引擎的概念和基本功能,分析了搜索引擎中网络爬虫模块的作用,并基于现阶段国内外网络爬虫的研究进展,分析现有网络爬虫不足,针对通用爬虫的局限性和其对互联网的迅速发展越来越力不从心,提出了主题爬虫的概念。主题爬虫的搜索策略是其核心,也是社会研究的热点技术。现有的主题爬虫搜索策略在查全率,查准率,鲁棒性等方面存在不足,本文在分析这些不足的基础上,提出了一种主题爬虫的综合型搜索策略。   最后,进行了综合型搜索策略的算法验证,结果表明我们的搜索策略在有较高的命中率和鲁棒性,以此验证了我们的综合型搜索策略的有效性。
其他文献
随着计算机技术和网络技术的飞速发展,现有的搜索引擎虽然采用了各种方法来提高信息的检索精度,但是相关的文档和不相关的文档仍相互混杂,给用户带来了很大的负担。因此,如何快速
时-频分析是信号处理中的重要手段之一。作为经典的时频分析工具Fourier变换建立了信号从时域到频域的桥梁。但它反映的只是整个信号在全部时间下的整体频域特征,而不能提供
在21世纪,以网络通讯技术和多媒体技术为核心的信息技术的迅猛发展在社会的许多领域中引发各种深层的变革,从而加速了人类迈向信息社会的步伐。教育信息化是当今世界教育发展
本文对NTFS文件系统进行了较为深入的研究,系统论述了NTFS文件系统中的各主要的数据结构,并动态分析了NTFS文件系统中各数据结构之间协调工作的原理,并且设计了一个嵌入式NTFS文
随着HT-7、EAST托卡马克物理实验的不断深入,更多的物理论断应用到实验中来,数据量较过去有了爆发性的增长,信号采样频率、数据存取速率、网络带宽等方面都有了新的要求。不
学位
专利信息作为重要的信息资源,越来越受到人们的重视。目前,专利分类采用传统的手工分类方法,存在分类周期长、费用高、效率低、一致性差等缺点。近年来,随着专利申请数量的迅
车身是汽车各大总成中极为重要的一部分,新车型的开发首先是新车身的开发,其开发周期,制造成本约占整车的50%左右。车身外形各曲面片要求光滑拼接,圆滑过渡,遵从光顺原理,其
基于计算机网络传输的远程数字视频监控系统弥补了传统监控系统因专线布局而限制传输距离的不足,使监控主体与客体摆脱了地理位置的束缚,理论上可以相隔任意远的距离,只要通过计
现今标准领域成为一个热门话题,我国在标准领域起步较晚,所以我们要参考国际先进的标准技术信息研制情况从而制定有利于我国标准发展的政策。参考热点信息所具有的行业属性情况
树木的模拟是计算机图形学在林学可视化领域应用的前沿课题之一,树木的形态结构在其生长过程中起着重要的作用,在树几何建模的过程中,真实地模拟树木枝条的自然弯曲状态是一