【摘 要】
:
天网FTP资源搜索引擎是对中国部分IP集合进行扫描,获取其中匿名FTP站点文件信息来为广大互联网用户提供资源搜索服务的垂直搜索引擎。随着中国IP集合以及引擎扫描集合变大,旧
论文部分内容阅读
天网FTP资源搜索引擎是对中国部分IP集合进行扫描,获取其中匿名FTP站点文件信息来为广大互联网用户提供资源搜索服务的垂直搜索引擎。随着中国IP集合以及引擎扫描集合变大,旧批量爬虫搜集系统所花时间增加,服务数据的时新性逐渐成为引擎的重要问题。本文的主要任务是在对原有天网FTP资源搜索引擎爬虫系统的调研和分析的基础上,在已有的硬件及网络带宽的条件下,设计和实现了一个基于FTP站点RANK的、分布式的、具有很好扩展性的、数据保持很好时新性的增量搜集系统,解决了爬虫搜集系统中存在的扫描周期长、索引更新慢的问题,以及搜索结果页面排序效果不好等相关问题。
论文首先介绍了天网FTP资源搜索引擎,对当前通用搜集系统存在的问题进行研究分析,并提出两阶段解决方案;第一阶段通过带MD5备份的搜集策略将单服务器的搜集时间从8天降到4天左右,然后又通过多组数据分析,验证了增量搜集的必要性。于是在第二阶段方案中,我们先研究了网页增量搜集系统的研究现状,并针对FTP站点变化的独有特点,提出了天网FTP资源搜索的增量搜集策略。
该策略主要涉及到增量搜集模型、增量搜集算法的设计和实现、各类FTP站点更新预测算法的设计和实现、算法所依赖的FTP站点RANK值模型、以及最后增量搜集系统的整体设计、各个模块的实现等问题。本文后续描述了目前设计和已实现的天网FTP资源搜索引擎的分布式搜集系统架构,以及基于FTP站点RANK的增量搜集子系统内部模块关系图。并对各个模块的运行逻辑、实现过程、数据结构、类图以及其他相关问题进行了介绍。
最后,综合当前主流的网页增量搜集系统评测方法,本文针对天网FTP资源搜索的增量搜集系统,定义了文件变化度和单位预测代价两个评测标准,并对相关数据进行分析,对增量搜集模型不同参数组合的运行效果进行了评比,得出结论:基于站点RANK及上次变化历史的更新度预测算法组合能够以较低成本抓取每天变化的主要数据,并很好地缩短索引更新周期,取得较好的增量搜集效果。
其他文献
随着人们对搜索的效率和准确性的要求不断提高,单一的搜索引擎已经不能满足很多用户的需要,有时为了搜索一个内容而要查找几个独立的搜索引擎,为了解决这个问题,元搜索引擎出
数控技术的迅猛发展,对数控系统中的整个运动控制核心的机床逻辑控制提出了越来越高的要求,而其逻辑控制是由可编程控制器(PLC)来实现的。PLC程序是使数控机床的各部件有效可靠工作的关键部分,因此PLC编程工具是数控系统中必不可少的部分。蓝天数控系统原由PLC编程语言是SIPROM语言,一种文本化编程语言。本文正是针对蓝天数控系统对PLC梯形图与SIPROM语言相互转换进行研究与实现,实现图形化编程及
数据交换与集成旨在解决分布式异构系统间数据交互和信息共享的应用需求。信息化的实践证明,大型信息系统的建设一般都需要相当长的过程,这其间由于需求变化、技术发展和人为因
无线传感器网络(Wireless Sensor Networks,WSN)是一种综合了计算机、微电子与通讯等多种学科研究内容的新兴的网络技术。它通常是由大量廉价的具有信息获取能力的节点组成自
候鸟迁徙行为过程主要中涉及到栖息地发现、迁徙路线追踪以及栖息地之间的活动关系等。如何寻找候鸟迁徙过程的栖息地、追踪候鸟的迁徙路线、挖掘栖息地之间的强关联关系对候
信息时代互联网的繁盛极大地丰富了人们获取信息的途径,网上聊天、网络购物、网上办公已经成为人们日常生活中不可缺少的一部分。然而随着互联网的爆炸式增长以及海量信息的涌
DNS(Domain Name System,域名系统)[1][2]是重要的互联网基础设施,主要功能是将主机名映射为IP地址。DNS协议自身的安全缺陷使得它面临很多安全威胁。为了弥补DNS协议缺陷并抵
自从世界上首例手机病毒“VBS.TimoFonica”于2000年6月发现以来,移动终端恶意代码的数量在不断的增加,危害性不断增强。目前移动终端恶意代码发作时,能够破坏系统软硬件设备
推荐系统是一种利用用户与产品之间的相互关系以及相关信息为用户进行个性化推荐的系统。最早出现于二十世纪九十年代中期,用于为用户进行USENET上的新闻推荐。随着逐步的发
无线射频识别(RFID)技术是目前国际研究的热点之一,它可以应用在以供应链管理为代表的国民经济的各个领域。由于技术和市场等诸多因素,至今还没有走向大规模的开环应用。在RFID应