论文部分内容阅读
摘要:随着工程项目信息化程度越来越高,海量的工程数据随之产生,然而传统的工程数据存储技术无法满足越来越高的数据存储质量的要求。近年来,云计算技术在工业界和学术界共同推动下取得了巨大的发展,大量的云计算系统投入使用。其中,Hadoop平台被广泛用来开发云计算程序。Hadoop最大的优点就是实现了并行化对应用开发者的透明处理,应用开发者可以像开发普通程序一样来开发云计算的应用系统,而集群的并行化则由Hadoop底层自动完成。本文基于Hadoop技术来研究工程领域海量数据的处理问题,主要采用Hadoop的HDFS分布式文件系统以及MapReduce分布式处理模型来支持海量工程数据的存储和处理。海量工程数据的处理过程主要分为两大部分:海量数据的存储过程与计算分析过程。针对工程领域数据存储的问题,本文分析设计了基于Hadoop的HDFS分布式文件系统的工程数据存储系统。该系统基于Java7文件监控器设计了的文件识别算法,该算法可以快速、准确地监控并识别客户端本地文件目录变化信息。配合基于Quartz的调度器的存储作业调度以及HDFS文件操作API接口的调用,实现了跨平台文件同步功能。经过在云仿真平台存储系统中应用测试,表明该系统具有较好的通用性、高效性以及经济性。所设计的文件同步方法较好地完成了文件同步任务,解决了云仿真平台存储系统中核心的文件同步问题,提供了快速、正确的文件同步功能。针对海量工程数据计算分析的问题,本文基于Hadoop技术另外一个核心技术MapReduce分布式处理模型,以城市海量噪声数据为应用对象提出了海量数据分析处理模型,为城市社区噪声监测系统提供海量数据处理服务。针对城市噪声数据特点,提出了由四个部分组成的数据处理过程,分别是数据清洗、数据预处理、数据处理以及数据可视化。基于该处理模型,对城市噪声监测采集系统采集到的海量噪声数据进行存储,将存储后的数据进行测试分析处理,实现了移动计算与海量工程数据存储及分析的结合。测试结果表明该分布式处理模型快速、准确、有效地完成了噪声数据处理的任务。最后对基于Hadoop的海量工程数据的存储与计算分析的应用情况进行了研究成果总结,并对下一步工作进行了展望。