基于Storm的实时信息采集技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:cangyueshang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网的进一步普及,电子商务一直保持着高速的增长状态,它不仅改变了人们的生活方式,还有力的推动经济的全球化进程。随着人们生活节奏加快以及对数据的实时性要求越来越高,面对网上海量的产品舆情信息,传统的网络爬虫在数据实时获取方面显得越来越乏力,同时也不能在扩展性上获得比较好的效果。  针对如何尽早地获取电商网站中产品的信息,进而实时的把握产品舆情,提出了一种基于Storm的实时信息采集方法。本文首先对电商网站的总体特征进行详细分析,然后重点研究了基于Storm的分布式爬虫、采集策略、以及网页变化时间预测方法这三个方面。  (1)对于基于Storm的分布式网络爬虫,在研究流式计算框架Storm和相关技术的基础上,充分利用其分布式、实时性、无数据丢失、可扩展性强等优势,设计并实现了一个基Storm的分布式网络爬虫,极大的提高了爬虫的采集效率。  (2)在采集策略方面,通过对电商网站特点分析发现,为了方便管理和用户检索,电商网站通常会对商品进行分层来存储。为了能尽可能的搜集到电商网站中所有商品对应的链接,我们首先根据层数来对电商网站中的URL进行分类,然后通过一种基于URL分类的广度优先搜索策略对商品的链接进行搜集;为了使商品信息一直都保持在比较新的状态,我们首先根据URL对应的网页的更新频率大小对URL进行分类,然后通过一种基于URL分类预测的增量采集策略来维护商品信息库。  (3)对于网页变化预测方面,为了提高数据获取的实时性,分别对不同类型的网页变化规律进行建模,然后通过相应的算法预测网页的下一次更新时间来实现数据的实时采集。  最后,本文以基于Storm的分布式网络爬虫和网页变化预测算法为理论基础,提出了一个基于Storm的分布式实时采集系统构建方案,简称RICS系统,并给出系统整体架构和原型。通过与开源的Nutch分布式爬虫性能测试对比,发现基于Storm的分布式爬虫采集效率更高;通过对基于Storm分布式爬虫水平扩展测试,发现其有优秀的扩展能力;通过对京东、淘宝、苏宁电商网站网页的增量采集实验验证了网页变化预测算法的有效性。
其他文献
DTN(delay tolerant networks)网络涵盖了传感器网络、Ad-hoc网络和车载网络等,在军事、民用等方面具有广阔的应用前景。在一些特殊场景,例如部署在敌方控制区的军事自组织网络
随着大型分布式系统的不断发展,人们越来越关注系统的可靠性。例如中国研制的天河一号系统、航空火车等分布式控制交通系统以及基于MPI的FT-MPI系统等。分布式系统不仅关系到
随着数字化技术的普及和互联网技术的飞速发展,数字媒体越来越深入到人们的生活和工作当中。矢量数字地图作为一种数字图像产品,因其占用空间小、放大不失真、数据精度高等特点
随着移动设备与无线网络技术发展,延迟容忍网络(DTN)[1]被研究者广泛关注。由于端到端网络无法持续连通,因此传统无线路由已经不适用于DTN环境。移动智能终端规模的逐渐扩大和
生物特征识别技术是基于人的生理或行为特征进行身份识别的技术。步态识别是一种新兴的生物特征识别技术,它根据人走路的姿势识别人的身份。与指纹、人脸、虹膜等生物特征相
随着嵌入式系统的不断发展,嵌入式控制系统也趋向于复杂化,针对嵌入式控制软件的逆向分析也变得越来越重要。通过汇编代码逆向分析,可以分析整个软件代码的架构、理解代码的功能
无线传感网络作为物联网的数据信息感知层,由大量传感器节点组成,节点能量受限和网络生存时间短是WSN的重要特征。为了提高无线传感网络的能量使用效率,并保存能量,设计能耗均衡
随着无线网络技术的快速发展和手持电子设备的日新月异,某些环境下传统的基于端到端的完整路径的通讯模式显然已经不再适用。一种新的网络体系应运而生。延迟容忍网络(delay to
车辆跟踪是智能交通系统(ITS,Intelligent Transportation System)中的重要技术,在图像的运动目标跟踪与识别中经常遇到车辆遮挡的问题,该问题是动态图像处理过程比较难以解决的
数据流聚类是数据挖掘领域的一个重要研究方向,其研究成果已被应用于诸多领域。然而传统数据流聚类算法不适应于不确定数据流,而且在聚类过程中不能对数据流中近期的数据进行详