基于MapReduce作业拆分组合机制的并行ETL组件实现

被引量 : 1次 | 上传用户:chencr33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的信息爆炸,使得对大数据的处理变得异常重要。各个行业尤其是互联网行业,每天都会产生TB级的服务数据,需要更多的硬件资源来处理,如何对海量数据进行处理有很大的意义。面对这些海量数据,企业希望通过运用数据挖掘算法发现这些数据中蕴含着巨大商业价值的潜在信息,而ETL:数据的清洗-转换-集成是数据挖掘的前提,它为数据挖掘提供更为精炼的数据,方便企业运用各种数据挖掘算法对数据进行分析,因此对海量数据的ETL处理有着很大的现实意义。MapReduce编程模型的提出,为大数据处理提供了新的思路,由于良好的易用性和可扩展性,得到工业界和学术界的广泛支持和应用。但是对于一个复杂的ETL处理流程,需要多个MapReduce作业来完成任务。作业间对Hdfs的读写所产生的工/0消耗以及网络传输的消耗严重影响着ETL流程的处理性能。尽管Hadoop提供了链式MapReduce接口,可以减少MapReduce作业的数目,但是链式MapReduce自身也存在着不足之处。本文通过研究已有ETL系统和大数据处理方法,提出一种改进的链式MapReduce框架,并将其应用于一个并行数据挖掘系统的ETL模块中,该系统是B/S模式,通过拖拽算法组件的形式形成工作流。本文的具体研究内容如下1.在研究初期通过调研MapRedcue作业执行流程以及开源ETL项目,了解目前大数据ETL的处理方法,为之后构建优化规则,提出改进的链式MapReduce框架做准备。2.在借鉴开源ETL项目并结合MapRedcue特点的基础上,提出一种改进的链式MapReduce框架,并将此框架应用于一个并行ETL工具上,使该工具拖拽出的ETL流程产生的MapReduce作业更适合于作业的拆分和组合,并针对此框架设计了一个相应的工作流引擎。3.本文根据MapReduce作业的特点以及ETL算法的特性,设计了几种流程级别的优化规则,通过优化规则使得拖拽出的ETL流程被重新组合成新的流程,新的作业流程产生更少的MapReduce作业,更少的IO,磁盘消耗。并在此基础上对部分ETL算法在MapReduce层面上进行优化。4.最后利用某省份手机上网数据,将本ETL工具与Hive进行性能对比试验。
其他文献
"后花园"作为一个常见意象出现在中国古典戏曲中,其义涵已非纯粹意义上的地理空间所能涵盖。作为传统秩序的逸出,"后花园"是多重双向对生因素交织而成的"临界空间",是闺阁女
家庭教育是值得充分利用的重要教育资源,是学校教育的有益补充,是大学生思想道德建设的重要环节,是新时期加强高校大学生德育工作的有效途径之一。本文针对目前家庭教育的现
本文以《全国普通高等学校体育课程教学指导纲要》为指导,分析了目前普通高等学校排球教学现状和存在的问题,借鉴国内外最新的排球项目教学经验,从排球运动的本质出发,阐述了
<正> 文[1]介绍了平面(空间)四边形两对角线垂直的充要条件,给人以启迪。这里介绍平面(空间)四边形对角线成θ角的充要条件。 定理 ABCD为平面(空间)四边形,AB、
<正>2014年在各级政府和相关职能部门的大力支持下,许昌发制品行业各企业审时度势,积极采取措施应对金融危机,合理统筹安排生产,整个行业运营平稳有序并继续保持着企稳回升的
绿色矿山建设是城郊煤矿缓解矿产资源供给压力、地质环境压力的重要举措。本文依据绿色矿山的基本内涵,以河南商丘城郊煤矿为例,分析了该矿绿色矿山的建设现状,基于绿色矿山
<正>编者按:数字化传媒的迅速普及和数量庞大的文学网民,让时下新媒体文学的阅读群体、写手阵营和原创作品数量,均以令人惊叹的巨大增幅涌向文坛,形成了文学史上从未有过的文
<正> 策略是党的政治行为,是党的政治活动的性质,方向和方法。它是实现战略的手段和途径,是战略的一部分。在确定了正确的战略目标之后,能清醒及时地对形势作出科学的分析与
目的:分析探讨腹腔镜在腹部外科急腹症诊断和治疗中的临床应用价值。方法:将我院2012年6月-2013年9月期间收治的212例急腹症患者作为研究对象,实验组行腹腔镜诊疗,对照组采用
文字是文明的一个符号,人类创造了文字,进而发展为不同的文字系统和传播手段。现在文字成为视觉传播系统中一个最基本的元素。文字发展的历史几乎就是平面设计发展的全过程。