基于抽样估计的MapReduce负载平衡研究

被引量 : 3次 | 上传用户:suibianyidianyaoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从云计算的涌现到其目前发展得如此成熟都应归功于现实环境的促进和互联网技术的发展。首先,互联网在各行各业的迅速普及,使得数据量呈爆发式地增长。国际数据公司(IDC)的一项研究统计显示,全球2010年所产生的数据量约是1.3ZB,而第二年又增加了约0.6ZB,这就是说地球上每一个人产生的数据最少200GB大小,此后增长得更迅猛。数据量早已不是那个TB的时代,更大的数据级别即将到来。那么怎么合理地存储并处理这些海量数据是人们面临的一个重大难题。其次,由于云计算具有压倒性的成本优势,各大公司都把主要的战略投向云计算技术,也使得云计算的发展极为迅速。MapReduce已被证明在其上可以提供有效而且强大的并行处理方法,通过此模型,一些没有操作过并行程序处理的程序员同样可运用得游刃有余,可是MapReduce自身还存在着不足之处,那就是MapReduce的数据倾斜(Data Skew)在运行中普遍的存在。当大型数据集中数据分布不均衡时,会在运行时使得节点的负载不平衡,个别的任务会成为整个作业的“落后者”,从而导致整个系统的性能降低,整个作业运行时间也被延长了。本论文研究的问题就是如何高效地解决在MapReduce程序运行中Reduce阶段出现的数据倾斜情况,现有的一些方法都是异步的,这样降低了MapReduce的同步性,因此本论文主要采用“先预处理,后划分”的策略,使Reducer达到负载平衡。首先使用一种二层抽样的技术统计出数据集上key的基数分布情况,然后根据这个分布情况提前制定出分配策略,改善默认Hash分区的不足,采用了两种划分策略:小簇组合和大簇分割。小簇组合适用数据倾斜程度不太严重的情况下,而大簇分割在数据倾斜程度严重的情况表现出色。实验证明基于二层抽样的MapReduce负载平衡技术可以使Reduce阶段达到较好的负载平衡,进而提高系统的性能。
其他文献
随着紫外成像探测系统的不断发展,其性能的优劣直接影响着武器的作战安全,因此需要对其性能进行测试及校准。机载紫外探测系统可调焦校准装置有效的解决了紫外和可见光光轴平
产学合作由合作目标、合作主体、合作客体、合作职能与方法、合作环境五大基本要素所构成。高职教育产学合作的长效机制体现了合作要素的有机组合和共同作用,使要素及要素结
目的:研究恶性血液病合并粒细胞缺乏患者并发深部真菌感染的临床特点。方法:回顾性分析30例粒细胞缺乏合并DFI患者的资料。结果:接受骨髓移植、多次化疗、反复应用激素及免疫
<正>我校现有教职工380人,学生2300余人.统战工作范围根据我校的实际情况党委决定由五部分组成:一是我校在宜宾市的政协委员共6人,他们都是在地方上较有影响的社会知名人士,
<正>葛根汤方证在《伤寒论·太阳病篇》中记载;"太阳病,项背強几几,无汗,恶风者,葛根汤主之"[1]。《金匮要略·痉湿暍病脉证治第二篇》记载;"太阳病,无汗而小便反少,气上冲胸
随着人民生活水平的提高,中央空调系统在建筑领域得到了广泛的应用。同时,其运行所产生的能耗也越来越大,推广空调节能技术势在必行。众所周知,处于夏季制冷工况的集中式空调
目的观察慢性阻塞性肺疾病合并轻度肺性脑病患者在急性加重期接受无创正压通气治疗的临床效果。方法选取我院收治的30例慢性阻塞性肺疾病合并轻度肺性脑病患者为研究对象,分
失眠是一种常见、多发的病症,其发病率逐年升高,已日趋成为提高国民生存质量的首要问题,受到社会各界的重视。目前治疗失眠的方法多种多样,但目前最常用的治疗失眠的方法仍然
<正>用黄豆大或枣核大艾炷直接放在穴位上施灸,局部组织经烫伤后产生无菌性化脓现象,能改善体质,增强机体的抗病力,从而起到治疗和保健作用的方法,称为化脓灸,又名瘢痕灸。其
棉花是世界上首要的天然纤维作物,也是重要的油料和蛋白质来源作物。棉花在我国国民经济中占有重要地位。随着科技的进步以及人民生活水平的提高,棉花育种不仅要求提高产量,