基于Hadoop的地质云计算平台搭建与应用

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:tmhou5648
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地质数据采集方式的多样性导致了数据规模的不断增长,已经达到了“地质大数据”的5“V”特点,数据管理和分析处理的复杂程度不断增加,使得对海量地质数据进行高效运维和数据挖掘的难度不断增大,迫切需要新的技术手段来实现地质数据的智能化服务和挖掘地质数据的潜在价值。分布式存储和云计算提供了一种解决上述问题的新思路。Hadoop大数据处理技术得到了国内外研究者们越多越多的关注,成为海量数据存储、计算、挖掘技术的研究热点。  本文旨在基于搭建虚拟化地质云平台,实现积累的地质数据能够共享和互操作。深入研究和探索Hadoop集群中的HDFS分布式文件系统、MapReduce并行编程框架、Hbase列式存储数据库等组件,结合全国地质矿产潜力评价数据,将Hadoop技术应用于地质大数据分析研究中。本文的主要工作如下:  (1)通过对云计算和大数据的研究,阐述了其概念、关键技术等内容并提出了地质云平台的体系结构,重点阐述了开源云计算和存储框架Hadoop,尤其是分布式文件系统HDFS、并行计算框架MapReduce和列式存储Hbase。  (2)通过对海量地质数据整合、共享和查询检索的需求分析,利用分布式存储技术和虚拟化技术设计、搭建了Master/Slave架构的云数据计算与存储集群平台。利用Hadoop系统中的HDFS和MapReduce,为我们设计海量地质数据存储架构提供了有力的技术支撑,最终实现在高并发、高负载的集群环境中对地质数据进行高效访问。  (3)从Hadoop集群的云存储出发,解决了小文件在HDFS里合并存储的优化,使用MapReduce算法使合并过程效率更高。同时通过整体考虑各个负载因素,采用信息熵算法确定权重值,经过多轮负载均衡,提高系统应对高并发情况,优化文件读写,系统效率有了极大提高。  (4)研究了架构在虚拟云平台上的HBase数据库,根据矿产潜力评价数据的表特点设计rowkey,提高了地质大数据存储管理、查询检索的效率。通过与Oracle关系数据库的数据入库、数据检索对比实验,验证了HBase在处理海量地质数据方面的优越性。
其他文献
建筑物与人类的生活息息相关,建筑物信息的提取对城市规划、地理数据库更新、军事应用等具有重要意义,其提取与识别已受到越来越多的关注。随着空间技术的发展,遥感影像的空间分
在全党正普遍开展“讲学习、讲政治、讲正气”教育和进行“三个代表”重要思想教育的同时,党中央再一次运用胡长清、成克杰等反面典型案例在全党开展警示教育,这不仅说明了
江泽民同志“三个代表”的重要论述,从历史唯物主义高度,对世界无产阶级政党150多年和我们党近80年历史经验进行了科学总结和概括,赋予了党的性质以新的时代内涵,丰富和发展
农作物播种期和收获期监测及农机调度是精准农业中精准管理的重要内容。进行农作物播种期和收获期的监测及农机调度是一项综合的系统工程,需要集成GIS、RS、GPS技术各自的优势
兰炼运输公司轿子车队承担着接送厂内职工上下班的任务,有车辆43台,职工81名,其中党员22名。近年来,车队党支部始终坚持“抓党建,促经营,抓服务,创一流”的工作方针,取得了
江泽民总书记在广东高州市领导干部“三讲”教育会议上语重心长地指出:领导干部应该好好想一想:“参加革命为什么?当官应当做什么聪来身后留什么?这三个“想一想”,语重心长,肯切中
海洋约占全球表面积的71%,是一个巨大的资源宝库,探索海洋一直是科学研究的重要主题。二十一世纪既是海洋世纪,更是信息时代。为了更好地认识、了解,从而利用海洋,信息的共享、获取
随着“云服务平台+客户终端”模式的计算架构逐渐兴起,出现了越来越多的GIS云服务平台,它们提供了功能丰富、规范多样的GIS网络服务。同时用户终端设备朝着智能化、多元化的趋
县(市区)的“三讲”教育工作,中央在全国第三次“三讲”教育工作会议上已作了全面部署,提出了明确要求。我们要认真贯彻中央17号文件和江泽民同志在纪念建党78周年座谈会上
边境地区是国家地理空间的重要组成区域。20世纪80年代以来,全球化进程推动了传统产业空间布局由“资源指向”、“市场指向”朝着“混合指向”演变,加快了传统产业向国家边境或