搜索引擎中主题爬虫算法的研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:binguo404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  搜索引擎技术的研究已成为当今互联网研究领域的大热点。它以网络技术、并行系统、机器学习、数据挖掘、模式识别、图像技术、自然语言处理等理论为基础,同时具有很强的工程实践性。本文首先介绍了我们开发的一个内部网信息检索系统,然后介绍了本文在该系统中设计的网络爬虫(webcrawler)模块的体系结构,该结构考虑到了如何优先采集“重要”网页和如何根据网页的变化频率调整更新网页的策略。最后基于经典主题爬虫算法——Shark-search算法,通过引入网页重要度的概念,提出了一个基于重要度的主题爬虫算法。实验结果表明,应用该算法采集到的网页的主题相关度比应用Shark-search算法好,而且能优先采集“更重要”的网页——这是Shark-search算法没有考虑的。
其他文献
随着计算机技术的快速发展,实时系统变得越来越复杂,因此面向对象技术在实时系统设计领域得到普遍推广。UML(统一建模语言)是面向对象建模领域的工业标准。UML具有表达系统能力
本文针对离心泵关键零部件的快速建模技术进行研究,实现了基于剪裁图和实物的叶轮建模、叶轮铸造模具的快速建模,并对压水室的快速建模技术进行了分析和研究。 首先,从一般产
WebGIS是Internet技术应用于GIS开发的产物。GIS通过WWW功能得以扩展,真正成为一种大众使用的工具。从WWW的任意一个节点,Internet用户可以浏览WebGIS站点中的空间数据、制作专题图,以及进行各种空间检索和空间分析,从而使GIS进入千家万户。 在电力系统中,因为配电网覆盖区域较大,配电设施及相应工程数据又与地理位置有关,具有空间上的分布特性,如何利用网络信息化优势,
  本文提出了为了保证网络的良好运行,网络管理员必须定时收集、存储和分析网络设备中的性能参数,得到网络性能实时的报警信息,及时解决问题,并且管理者需要通过对不同时期,不同
随着软件产业的快速发展,人才日渐成为制约产业发展的关键因素。程序设计ICAI(Intelligent Computer-Assisted Instruction)软件作为培养软件人才的一种新型辅助教学工具,倍
随着互联网和IP技术的高速发展,VoIP技术得到了广泛的应用。在VoIP的各种协议中H.323标准最为成熟,市场占有率最高,并且适用于组建任何规模的IP电话网络。 本文介绍了一个
本文首先介绍了Symbian OS的特点及其系统结构、讨论了手机平台下中文输入法实现的基本工作原理,特别是针对Symbian OS,本文提出了在该系统下输入法的具体设计思想以及需要注
随着计算机网络的不断发展,全球信息化已成为人类发展的大趋势。但由于计算机网络具有联结形式多样性、终端分布不均匀性和网络的开放性、互连性等特征,致使网络易受黑客、恶意
Internet 的诞生和快速发展给人类的生活方式和工作方式带来巨大的变化,也令沟通与信息传递方式呈现出前所未有的便利和快捷,越来越多的多媒体服务应运而生,例如视频点播(VOD
复杂实体的三维建模是数字矿山的重要的组成部分,通过模拟复杂实体的几何外形不但能够有效提高地质分析决策的准确性和直观性,而且有利于复杂底层构造的定量化研究与资源的持