基于Scrapy框架的新闻实时抓取及处理系统的设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:dreamyear
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,互联网的信息大爆炸给人们带来信息过载的问题,新闻资讯作为人们接触最多的一种媒体信息,发布方式已经从传统媒体逐渐的转移到互联网上。新闻资讯作为互联网信息的重要组成部分也在急剧的增加。在此背景下,确定了通过分布式的新闻实时抓取来快速的聚合互联网上各个站点的新闻内容并对其加以处理的研究方向,以使得人们更加高效、全面的获取新闻资讯。   本文深入分析并总结了互联网新闻资讯、新闻站点以及新闻爬虫的特点,将新闻站点的页面精确的划分为导航页面和新闻页面,通过区分这两种页面不同的监控和爬取措施,详细设计了适用于新闻爬虫的核心算法,包括爬取策略和更新策略,这两个核心算法能够确保新闻能够被全面和高效的抓取;通过使用Redis和MongoDB这两个开源的Nosql数据库软件,在Scrapy爬虫框架的基础上进行深度定制,实现了一套分布式的新闻实时爬取系统。这套新闻实时爬取系统在多个模块里均使用了Xpath和正则表达式的方法来抽取和识别相关的数据。设计并实现了一条可配置模块的新闻数据加工处理的流水线,用来对爬取后的新闻进行加工处理。流水线的功能模块包括新闻数据抽取、新闻属性的规整化、分页新闻的合并和新闻内容的清洗等。本文根据中文新闻的特点,使用Shingles的特征抽取方法来抽取新闻特征,在Google的网页去重算法SimHash的基础上实现了新闻去重算法。实现的分布式的新闻实时爬取和数据清理系统已经应用于实际的生产过程。通过对120多个新闻站点和1300多个初始化的导航页面的爬取和监控,系统每天能够抓取40多万的页面,其中新闻页面的占比很高,这些运行数据表明该系统有着较高的抓取效率。后续的数据处理流水线也同时能够胜任每天的新闻的加工和处理。
其他文献
生活中嵌入式系统的应用无处不在,从通信、消费电子产品到汽车电子、智能机器、工业控制和卫星导航,其使用数量已经大大超过了通用计算机,嵌入式设备以其低功耗、可靠性高、
虚拟现实技术和互联网的发展,以及人们对旅游需求的不断增加,使得作为新兴模式的虚拟旅游得到了世界范围内的青睐。对虚拟景区漫游系统的开发研究已经成为虚拟现实领域的热点。
常识推理中的信息常常具有不一致性、不完全性和不确定性。这样的信息不能看作绝对真理,而只能称为信念。对不一致信念的处理是人工智能特别是计算机推理研究中一个关键性的
随着网络技术的迅速发展,Web应用日益广泛,其自身安全也面临着越来越多的威胁。SQL注入漏洞攻击是针对Web系统最为常见、危害最大的一种网络攻击,主要通过寻找系统漏洞对后台
随着社会经济的发展,汽车的数量呈显著增长的趋势,一方面给道路交通带来了巨大的负载压力,另一方面,由于汽车的违章行驶行为得不到及时有效的遏制,对人们的日常生活产生安全
随着信息技术的发展,海量数据库迅速增加,然而对其进行有效分析处理技术的缺乏,促使数据库中知识发现(Knowledge Discovery in Databases,简称KDD)技术的应运而生。数据挖掘(Data
近年来,软件定义网络(SDN)的理念快速兴起,同时兴起的还有SDN网络最有影响力的协议之一OpenFlow。SDN能够解决传统网络中网络结构复杂、网络管理复杂、新业务部署缓慢、厂商
聚类法在数据挖掘中具有很高的地位,但是很多传统方法只能对固定的数据集进行处理。随着技术的发展,许多领域,如互联网中的数据传输、通信网络中的通话数据、网站访问日志等,
随着互联网和信息技术的快速发展,特别是Web的全球普及,使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题:一方面是如何让站点提供者通过分析用户的浏
在医学可视化中,一些快速简单的方法通常被广泛的应用到实际中,如最大强度投影算法,其优点在于绘制速度快及交互的实时性,然而会造成最终图像的深度失真。为了将此类算法更好