面向Spark数据混洗中数据倾斜的动态均衡分区方法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:qqqqq721106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式计算平台为高效处理海量数据提供了便利,Spark凭借基于内存计算的优势被广泛应用于大数据研究领域。数据混洗(Shuffle)是Spark中不可或缺的过程,Shuffle中若是发生数据倾斜,将严重影响整个分布式集群的运行效率。针对Shuffle数据倾斜问题,现有的动态分区解决方法存在动态适应性不强和粒度不够细等不足,通过分析Shuffle的数据分区原理,实现了面向Spark Shuffle算子的动态均衡分区方法SPDB(Spark Partition Dynamic Balanced)。该方法基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的Shuffle算子实现中间数据总体倾斜度的评估,通过一次采样,预估中间数据的总体倾斜度,给出了应用程序执行的总体分区策略,即不同的执行阶段(stage)调整分区数和执行均衡分区,以减轻数据倾斜对性能的影响。在SPDB中,首先,为了预测中间数据的分布变化,通过水库抽样对每个Shuffle操作的中间数据进行采样和预处理,预估总体数据的倾斜度。继而,利用评估结果,为应用程序运行的每个Shuffle算子做出分区决策,并通过更新每次Shuffle的分区执行计划和键分区扩展系数,实现了面向Shuffle算子的分区动态调整。更进一步地,针对数据倾斜场景默认分区数不合理的情况,结合默认分区数和运行参数的考虑,实现了基于键扩展系数的分区数调整算法。最后,设计了基于扩展系数的数据均衡分区算法,针对不同倾斜级别的键(key)按照扩展系数进行分区,确保了数据均衡分配,提高了Spark并行计算性能。对SPDB均衡分区优化效果进行了实验验证。结果表明,在数据倾斜场景中,与默认Spark相比,SPDB方法的性能一般可提升10%~40%。
其他文献
国民经济的发展与自来水的生产有着密不可分的关系,它为我国人民的生活安定、身体健康奠定了坚实的基础。近几年,由于水资源短缺情况越来越严重、供水需求情况不断地增加、水
数字图像修复技术是对图像的破损区域进行填充的技术,能使修复后的图像不影响人的视觉感受。现今,该技术应用广泛,主要用于文物字画保护、老照片修复和字幕去除等。本论文根
社交媒体是当前我国社会各个圈层常用的交流工具。在目前的传播研究中,关注的重点是以公开表达为目标的大众传播和以趣缘及职业等条件建构的次级群体传播。但是对于社会学意
网络化控制系统(Networked Control Systems,NCSs)具备布线成本低,易于拓展和维护,可靠性较高等诸多优点,已在众多领域得到应用。通信网络的引入在提升系统性能和效率的同时,
空间技术的发展使得空间机器人的应用更加广泛,特别是作业时空间载体位姿无控的自由漂浮空间机器人(Free-Floating Space Robot)。本文以自由漂浮空间机器人为研究对象,对其仿真技术、基于采样的避障运动规划方法进行研究,论文主要研究工作如下:首先,本文基于Moveit!和开源运动规划库OMPL搭建了自由漂浮空间机器人的仿真平台。仿真平台中采用虚拟机械臂的方法设计了适用于任意结构的空间
随着制造业生产方式由大批量制造到小批量、多品种、更新快的转变,合理高效的生产调度对企业至关重要。作为连接计划和生产的关键活动,车间调度尤其是作业车间调度对企业生产
在轧机主传动系统中,单台电机拖动两个轧辊的控制系统会影响生产效率,需要引入多电机同步控制系统。在设计多电机同步控制系统时,选取交叉耦合同步控制结构,并设计负荷平衡控
国家经济发展质量的高低与国家贫困人口数量密切相关,贫困人口数量较多的情况下,不仅对国家的经济发展存在较大的负面影响,还会间接引发各种社会矛盾问题,造成社会动荡。我国
大数据时代社交网络、移动互联网、物联网等领域每天都会产生海量数据,数据的爆炸式增长导致了信息过载,同时也改变了用户的信息需求,从原来的文本信息过渡到现在的实体信息,相应地产生了实体搜索。不同于文档搜索,实体搜索旨在从多源异构数据中找出特定实体对象,对搜索质量的要求更加严格。传统的查询扩展方法能够提高文档搜索质量,但存在扩展项来源有限、扩展效率低和查询漂移问题,影响了查询扩展性能,不完全适用于实体搜
聚类分析技术作为数据挖掘领域的一个重要分支,逐渐成为研究的热点并被广泛应用于模式识别、图像处理、生物信息分析等领域,其核心思想可以概括为将一组数据集中的所有数据按照它们之间的相似度划分为不同的类别或者簇的过程。然而,当今社会中,充斥着大量的高维数据,如图像、多媒体、文本以及生物信息数据等。由于“维数灾难”的影响,使传统聚类算法遇到了瓶颈,效果大打折扣。子空间聚类算法作为解决高维数据聚类问题的一种思