论文部分内容阅读
随着互联网大数据时代的到来,传统的单机存储系统在可扩展性上已经不能满足需要海量数据作为支持的互联网应用的需求。近年来各种分布式存储系统应运而生,HDFS是目前应用最为广泛的分布式文件系统,它为存储大文件而设计,在读多于写的场景中表现优秀。在大多数系统中,HDFS一般用作后端数据存储提供离线的大型日志计算服务。系统前端产生的日志数据具有低速、小流量、不定时传输等特性,如果直接写入HDFS,会对HDFS产生较大的冲击。极端情况下多个客户端同时大量地写小文件,甚至能够导致整个HDFS集群不可用。为此,需要有专门的系统来为HDFS的海量小文件读写提供解决方案。 本文的工作主要包括以下几个方面: 充分调研现有的研究成果,并介绍了现有开源日志系统的技术特点;研究了现有的服务器端高并发编程模型,以及在大规模客户端场景下的可扩展方案,尤其是Zookeeper分布式服务的关键技术。 设计并实现了一个分布式日志采集系统。该系统部署在HDFS前端,将前端海量的小数据汇集成大文件,批量写入HDFS中。本文的分布式日志采集系统以高性能、可扩展和高数据安全性为设计目标,解决了HDFS应对海量终端的并发小量数据传输请求的难题,极大地降低了HDFS的负载。 对本文实现的分布式日志采集系统进行性能测试和评估,实验数据表明,本文的系统在面对前端海量客户端的情况下具有较好的写性能及稳定性。