【摘 要】
:
时至今日,随着各项科学技术的飞速发展,大数据处理的需求日益增长。hadoop map/reduce作为一个并行数据处理框架,被越来越多的应用到分布式数据处理当中。map/reduce是一个高
论文部分内容阅读
时至今日,随着各项科学技术的飞速发展,大数据处理的需求日益增长。hadoop map/reduce作为一个并行数据处理框架,被越来越多的应用到分布式数据处理当中。map/reduce是一个高效的,可扩展的,高容错的并行编程模型,并且十分易于使用。连接操作作为数据处理中一种十分重要的操作,在传统数据库中已经得到了很多的研究,由于map/reduce自身框架的原因,它并不能很好地支持连接操作。如今已经有很多map/reduce框架下的连接算法,但是这些算法大多没有很好地处理数据倾斜问题,当数据倾斜存在时,会导致数据分布不均匀,降低了分布式算法的执行效率。本文首先简要的介绍了数据倾斜问题的影响。然后针对两表等值连接提出了分区连接算法,该算法基于分而治之的思想将倾斜数据和非倾斜数据区别对待,结合了传统连接算法、广播连接算法等算法思想,很好的解决了数据倾斜情况下任务负载分布不均匀的问题。接着,针对多表等值连接中的数据倾斜问题,我们利用范围哈希以及单轮map/reduce任务完成多表连接的算法,均匀了数据处理的负载,较好地解决了数据倾斜的影响。最后,我们根据算法进行了一系列实验,通过我们的算法和传统的连接算法,证明了算法的实用性。
其他文献
中医骨伤科学中治疗骨折的之中一条重要的基本思路是筋骨并重,意思是说治疗骨折过程中一定要注重治疗筋病。因为筋骨之间存在着密切的关系,而且骨折中必然会伴随着筋伤。笔者
本论文主要对海洋天然产物Ningalin A的仿生合成以及吡咯衍生物的合成方法进行了研究,主要包括以下两个部分:第一章:海洋天然产物Ningalin A的仿生合成研究Ningalin A是从澳大
基于对城市主义与公共生活领域关系的关注,从当今纷乱而丰富的众多城市设计理论中梳理出3个较为重要的理论来进行阐释与讨论:新城市主义,日常都市主义与后都市主义;认为要缓
针对阿根廷罗卡线电动车组要求小编组重联方式运行,以满足客流量灵活的需求,研究了小编组重联运行控制方案,论述了列车级控制硬线的重联和网络通信重联,通过在2列4编组重联列
当前我国高校各项改革不断深入,对高校固定资产管理的改革也提出了新的要求,有了新的目标。针对以往高校在固定资产管理过程中存在的问题,提出了新的解决方法。近年来,新型条形码
随着我国经济的不断发展与繁荣,服装作为不可或缺的行业,更牵动着我国的经济利益。2007年国内首家服装尾货市场的开业,代表着服装尾货市场在我国正式成立。尾货市场是对正规
在发输配网结构日益复杂的电力系统中,静止无功发生器SVG是一种重要的无功补偿装置,起着维持电力系统安全稳定运行的作用。链式H桥结构的SVG具有无需变压器、损耗小、占地面
改革开放以来,中国的经济发生了翻天覆地的变化,各项建设所取得的成就举世瞩目。与此同时,社会和环境面临的压力、矛盾及问题逐渐显现,并可能变得更为复杂、更为突出。在此背
<正>作为杭州灵隐景区景中村改造的法云古村,它的变迁从来没有像几年前(2005~2009年)发生得那样地迅速而深刻。对于一个传统的山地村落,这种变化是它的发展历程中的一个重要的