论文部分内容阅读
随着现代数据收集技术的迅速发展使各领域的数据不断增长。传统的计算机在海量的数据面前已经略显吃力。在这样的背景之下云计算悄然而生,而Hadoop为一个开源的分布式处理系统平台,属于Apache研发公司的一个平台。Hadoop以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(goole mapreduce的开源实现)为核心,为用户提供了系统底层细节透明的云计算基础构架。Hadoop平台还包含了集群管理,数据仓库,文件查询等平台。Hadoop已经发展成企业与研究领域对云计算进行研发与应用的一个标准。HBase为Apache Hadoop中的数据仓库,可以实现实时、随机的读/写大规模文件的请求。HBase将数据存储和数据的并行计算完美地结合起来。HBase是开源的,并且可以轻松地在便宜的硬件上部署规模巨大的结构化储存的集群。目前已经有好多国内外的大公司应用HBase作为他们的数据存储仓库。人们的生活水平越来越高,物流车辆变得很多很多,它们产生的GPS数据也越来越多,我们希望存储相应信息的时间也越来越长,人们对信息处理的要求也越来越大,对GPS车辆信息的处理需求也变得越来越大,面对GPS产生的海量数据传统的处理方式、存储方式已经力不从心,云计算、云储存技术的产生给大数据的处理、储存提供了一种很好的解决途径。因此GPS信息基于Hadoop的应用,基于HBase的存储是物流行业未来发展的潮流,是解决物流大数据很有效的途径。本论文首先对hadoop的基础知识进行了介绍,讲解了Hadoop的核心子项目分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce分布式处理编程模型,以及Hadoop的数据仓库HBase。然后对所需要的分布式环境进行了搭建,讲述了Hadoop集群的搭建过程和HBase的搭建过程,及Sqoop的安装。接着通过Hadoop的分布式编程模型对GPS物流车辆信息进行了处理,编写实现了基于Hadoop的四个应用实例,通过应用实例加深对Hadoop编程模型的了解。最后介绍了HBase的基本原理,及GPS数据基于HBase表存储的设计,其中重点对rowkey进行了设计,对HBase的写入性能进行了分析,并对写入性能进行了调优以提高HBase的写入性能,设计实现了GPS数据基于HBase的存储,并通过实验给予了验证。