一个基于HDFS的分布式日志采集系统设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xqjulia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据时代的到来,传统的单机存储系统在可扩展性上已经不能满足需要海量数据作为支持的互联网应用的需求。近年来各种分布式存储系统应运而生,HDFS是目前应用最为广泛的分布式文件系统,它为存储大文件而设计,在读多于写的场景中表现优秀。在大多数系统中,HDFS一般用作后端数据存储提供离线的大型日志计算服务。系统前端产生的日志数据具有低速、小流量、不定时传输等特性,如果直接写入HDFS,会对HDFS产生较大的冲击。极端情况下多个客户端同时大量地写小文件,甚至能够导致整个HDFS集群不可用。为此,需要有专门的系统来为HDFS的海量小文件读写提供解决方案。  本文的工作主要包括以下几个方面:  充分调研现有的研究成果,并介绍了现有开源日志系统的技术特点;研究了现有的服务器端高并发编程模型,以及在大规模客户端场景下的可扩展方案,尤其是Zookeeper分布式服务的关键技术。  设计并实现了一个分布式日志采集系统。该系统部署在HDFS前端,将前端海量的小数据汇集成大文件,批量写入HDFS中。本文的分布式日志采集系统以高性能、可扩展和高数据安全性为设计目标,解决了HDFS应对海量终端的并发小量数据传输请求的难题,极大地降低了HDFS的负载。  对本文实现的分布式日志采集系统进行性能测试和评估,实验数据表明,本文的系统在面对前端海量客户端的情况下具有较好的写性能及稳定性。  
其他文献
随着Internet迅猛发展,WEB网站的信息资源为人们的学习和生活提供了极大的方便。然而,由于WEB站点之间的异构性,资源的有限共享成为急需解决的问题。另一方面,人类社会是一个广泛
本文首先分析了当前配电网管理中存在的问题和配电网地理信息系统的发展趋势。接着,引入了基于组件的软件开发思想、组件式GIS技术和万维网GIS技术。在此基础上,根据系统开发方式、软硬件条件、用户功能需求和项目实际情况,提出了基于通用GIS组件的,C/S结构和B/S结构相结合的系统计算模型。然后,利用面向对象的空间数据库技术和元数据技术设计了系统数据库。最后,利用面向对象的可视化开发工具,实现了系统的各
在信息大爆炸的今天,推荐问题早已成为一个迫在眉睫的问题。在不同环境下的不同推荐算法被不断提出和修正,在各个领域对于推荐系统的应用也比比皆是。推荐的算法从最简单的非个
该文的工作主要集中在以下几个方面:⒈高性能的网络监听和数据报捕获技术.首先针对各种不同的网络情况分析了网络监听的可能性及其原理,包括基于共享式网络的监听、基于交换
数据库建模中常常要处理大量与时间信息密切相关的数据,称不时态数据.在数据库应用问题中,清晰准确的描述这睦时态数据是进一步对其进行存储和操作的前提.该文首先分析了当前
面向民生领域的智慧城市发展中,城市的“智慧”具体表现为多种围绕市民需求的智慧化应用,通过这些应用向市民提供情境化、个性化、主动化的公共服务。其中,情境化与个性化服务需
火灾消防报警技术的先进与落后直接关系到人民的生命财产的安全,是人命关天的大事.该文在总结火灾消防报警技术的基础上,结合现代科学技术的发展,提出一套全新的、完整的、实
分布式虚拟环境需要解决的一个基本问题是建立一个可以容纳大量对象进行通讯的结构,使得这些对象在不断运动变化的状态下与其他对象进行快速准确的动态通讯。解决这个问题的基
随着Internet的普及和WWW的迅猛发展,人们可以通过网络在浩瀚的信息海洋中漫游.然而,由于信息的爆炸式增长,很多Web经验不足的用户经常会"迷失"在其中,他们往往因为找不到所
随着计算机网络的发展和普及,人们在享受了网络带来的便利的同时也对网络本身的安全呈现出越来越多的关注。入侵检测(Intrusion Detection)虽然被称为网络安全的第二道防线,