论文部分内容阅读
随着北部湾海洋生态资源的开发和利用,海量海洋科学数据已经迅速涌出,这些海量数据有如下特性:海量、多样、复杂、动态变化、异构等。但是目前各项目中的海洋科学数据都没有形成统一的存储和采集的标准与规范,没有相应的数据共享平台,从而“数据孤岛”现象就形成了。怎样合理的存储和管理并高效地利用这些数据,是顺利进行海洋科学研究项目首要考虑的关键问题之一。对于大规模数据处理问题,传统的方法大多采用并行计算、分布式计算、网格计算等技术,配置计算资源耗费昂贵,而且要通过繁琐的编程才能实现大规模数据的有效分割和计算任务的合理分配。随着云计算技术的飞速发展,特别是以Hadoop分布式技术为代表的云计算数据处理技术,为上述问题的解决提供了一条有效的途径。本文基于云计算技术,围绕如何构建北部湾海洋科学数据处理云平台框架解决方案,开展了以下方面的研究工作:(1)针对北部湾海洋科学数据处理云平台的建设需求,对云计算关键技术和现有的云计算平台框架结构进行分析和总结,深入分析和研究具有代表性的云计算Hadoop分布式平台。(2)根据北部湾海洋科学数据的特点和特殊处理需求,明确北部湾海洋科学数据处理云平台的功能,理清该平台系统的操作流程,按照云计算中的“软件即服务(SaaS)”模式,设计一个符合北部湾海洋科学数据处理自身要求的云平台框架。该平台包括分布式数据库访问层、数据处理平台层、业务应用层等三个层面,可实现分布式文件系统、并行编程环境、分布式系统管理、并行数据存储的控制与调度、业务应用层应用软件的开发、用户应用接口等功能。(3)初步搭建了北部湾海洋科学数据处理云平台的原型系统,阐述了关键模块的实现方法和平台建设的具体搭建步骤。采用并行分布式计算技术、Linux集群技术、以Hadoop分布式平台作为基础,使用HDFS分布式文件系统、Map/Reduce并行编程计算模型以及HBase分布式数据库技术来处理北部湾海洋科学数据,编程实现了关键模块,实现了对云平台的分布式系统管理,可提供具备高可靠性、高稳定性的存储平台。最后,通过测试验证所提出的平台框架的可行性和有效性。本文的研究成果和设计的北部湾海洋科学数据处理云平台框架,可以为构建基于Hadoop云计算技术进行管理和存储海量海洋科学数据云平台提供了一种可行的解决方案,具有一定的实际应用价值和科学意义。