集群引擎MapReduce的中间数据存贮与传输优化的研究与实现

被引量 : 0次 | 上传用户:typxh123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集群是一种计算机系统,通过一组松散集成的计算机软件和硬件连接起来高度紧密地协作完成计算工作。MapReduce是Google提出的一个软件架构,用于大规模数据处理的分布式计算模型。MapReduce运行在集群上,能够完成任务的自动分发与并行运算,利用集群强大的性能来完成计算工作。本论文主要对Platform公司开发的集群引擎MapReduce的中间数据在各个节点间的共享问题进行了研究,提出了中间数据的存贮与传输优化的解决方案。在这个解决方案中,实现了中间数据存贮功能和中间数据传输优化功能来提升系统性能。在保证数据完整性的情况下,解决了大规模的中间数据在各个节点间进行共享和传输时,每个节点由于大量的磁盘读写和多线程并发读写等导致整个作业处理速度偏慢的问题,从而提高了整个作业的处理速度。本论文针对中间数据在不同任务端的处理优先级和方式的不同,由Map任务中间数据存贮模块和Reduce任务中间数据存贮模块来负责每个节点上的不同任务的中间数据存贮。而中间数据传输优化模块则优化了中间数据在各个节点间的传输速度。Map任务和Reduce任务的中间数据存贮模块使用了相同的原理,但是实现方式不同。存贮中间数据时都是通过管理磁盘I/O来达到优化磁盘I/O性能的目的。其实现思想都是对文件进行内存映射的方式将中间数据存储在内存中,并维护这些内存中的中间数据。中间数据传输优化模块则是在中间数据存贮模块的基础上,能够更快的将Map端内存中的中间数据推送至Reduce端,并显著减少网络连接数。从而加快整个作业的运行速度。本论文的测试结果表明,开启中间数据存贮与传输优化功能时,大规模数据处理的作业的运行速度有明显的提升,作业运行所用的时间大幅减少。另外,根据业界标准的Hadoop基准测试对本论文实现的功能进行了测试。在测试中执行Hadoop常见的不同负载的应用时,相对于Hadoop,集群的性能提高了20%-60%。
其他文献
计算机辅助教学以其鲜明的教学特点、丰富的教学资源、形象生动的情境,充分调动学生的主体作用,使学生在学习中真正成为信息加工的主体和知识的主动建构者,有利于改革传统的
期刊
<正> 随着信息技术的迅速发展和网络经济的兴起,人们逐步意识到信息技术对世界产生的深远影响.它不仅使一个新的产业崛起.更重要的是.它改变了现有产业和社会的运作方式。信
机采棉加工工艺工序是影响机采棉皮棉质量的非常重要的决定因素之一,本文通过对石河子某加工企业机采棉生产先各工序采集棉样HVI、AFIS试验数据比较分析,并与同一加工企业手
分析了钛强化冷轧工作辊的工作特性及冷连轧生产过程中工艺冷却润滑系统的组成和工作原理 ,介绍了新型乳化液供给和过滤系统的组成及其使用效果
肝癌的发病多由感受邪毒、肝气郁滞、饮食损伤导致,而正气亏虚、脏腑失调则为其发病的内在条件。李秀荣教授提出正虚邪实的概念,以脾虚为本,运用"实脾法"治疗肝癌,扶正培本,
农村剩余劳动力的存在和转移,是经济发展的必然产物,是一个国家或地区在由农业社会向工业社会过渡中必然要经历的过程。振兴东北老工业基地政策实施以来,辽宁顺应国内外经济发展
随着计算机技术的迅速发展,大数据(big data)越来越被人们所提起,人们通常用以来形容和定义信息爆炸时代所产生的海量数据,并且把大数据和相关的技术发展和创新联系起来。文
目的分析老年2型糖尿病肾病(T2DN)合并高血压患者应用厄贝沙坦联合钙离子拮抗剂治疗的临床效果。方法 94例老年T2DN合并高血压患者,随机分为对照组和观察组,各47例。对照组单
印花织物的瑕疵影响其质量,从而使其价值降低。现代纺织业的瑕疵检测方法主要是人工检测,人工检测存在效率低,准确率低等问题,而实现自动化检测印花瑕疵则可提高织物检测过程