面向网络爬虫的海量URL数据管理技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:silas20
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量URL的管理一直是提高网络爬虫性能的一个瓶颈。现在,网络规模越来越大,更新速度也变得越来越快,这些都促使网络爬虫系统来提高其性能。所以如何高效地管理网络爬虫的海量URL,使之能够满足网络爬虫高性能的要求,也就显得越来越重要了。为了能够解决网络爬虫海量URL的高效管理问题,本文从工程的角度,提出这样一个解决方案。它包括一个基于NC-Trie的索引结构、一个面向NC-Trie的缓存机制和一个基于计算机指令流水思想的任务处理体系结构。首先,根据网络爬虫所要管理的URL都是字符串这一特点,本文选取计算机界公认的处理字符串信息最为高效的结构——Tire结构,来作为网络爬虫海量URL管理的索引结构。但是,Trie结构在高效处理字符串的同时,也存在很多缺点。对存储空间的浪费就是Tire结构的最大缺点。因此针对网络爬虫系统海量URL管理的特点,在原有的Trie结构压缩方法的基础上,本文提出一个改进的Trie压缩结构——NC-Trie。NC-Trie比原有的C-Trie具有更高的压缩率,同时也保持了Trie结构高速访问的优点。其次,由于网络爬虫要管理的URL数量巨大,必须借助外存才能更好地实现高效管理。因此,必须对索引结构进行必要的缓存。针对爬虫系统对URL管理的特点,对于海量URL的索引的缓存,本文将采用最近最少用的替换策略,并采用一个转换后的实现算法,来实施缓存的更新。再者,根据网络爬虫对URL访问的特点,本文使用计算机指令流水的基本思想,对网络爬虫对URL的各种操作进行细分,然后重新进行统筹组合,使之具有更高的并发度,以满足现代计算机的检索计算要求。最后,本文将设计和实现一个面向网络爬虫的URL管理系统。这个系统将包含如下模块:预处理模块、NC-Trie缓存管理模块、记录结构解析模块和硬盘缓存访问管理模块等。该系统的实现,为将来相关算法和实验的研究提供了一个基础平台。
其他文献
基于110警情数据挖掘人类行为模式,对应急管理、城市安全规划等领域有很重要的指导意义,而社区群体行为模式特征能够反应群体行为在时间特性和空间特性上存在的现象以及规律
校园网的建设是一个非常大的系统工程,涉及到各个方面的因素。由于校园内各个部门建立的时间不同,因此就决定了各个部门数字化的水平不同。根据提供的服务不同,校园网中有不同的
VOIP(Voice Over Internet Protocol)是一种基于IP网络的数字化语音传输技术,其本质特征在于语音的分组交换。过去的十年里VOIP技术不断完善,VOIP产业蓬勃发展。同时,随着嵌
随着计算机技术的发展,计算机应用模型已经渗透到各个技术方面。集成的模型资源也不再仅仅局限于一个领域,而是涉及到相关学科或交叉学科等多个领域。实现异构模型的集成交互
随着互联网技术尤其是Web 2.0的飞速发展,越来越多的web应用出现在人们的日常生活中,如P2P网络、社交网络、多Agent系统、电子商务等。随着web应用的规模不断扩大,其具有的开
目前高清数字电视机顶盒(HDTV STB)大多采用高集成度的单芯片解决方案,最高可支持1920×1080i/1920×1080p数字图像的解码。相对于标清电视机顶盒(SDTV STB)所支持的640×480
高校设备管理的中心任务是为教学、科研服务,以实现国有资产的保值和增值.高校设备管理要与现代化发展相适应,应该积极运用现代信息技术。论文基于这一背景,应用本体技术对设
因特网的普及与网络通信技术的发展使计算模式继主机计算和桌面计算之后进入普适计算时代。这种新的计算模式强调把计算机嵌入到人们日常生活和工作环境中,形成一个无所不在
三维编织复合材料是二十世纪八十年代发展起来的高新纺织材料,它具有异型件一次编织成型、结构不分层、整体性能好和设计灵活等特点,已经成为航空航天重要的结构材料。为了保证
随着互联网的发展及社会信息化的发展,搜索引擎作为人们查找信息的重要工具变得越来越重要。现有的搜索引擎的核心是布尔模型,完全依赖于用户给出的检索关键词,但由于在检索