【摘 要】
:
硬件技术的不断发展推动了数据处理系统的更新迭代。在计算方面,现代CPU多核、众核技术的成熟让大多数据处理系统选择采用数据分区的方式实现并行计算,从而充分发挥CPU的性能。在存储方面,大容量内存集群让数据处理系统可以在处理数据前,通过提前将数据集导入内存的方式,避免传统磁盘带来的I/O瓶颈,大幅提高了处理的性能。在网络方面,随着RDMA技术的成熟,它在现代的数据中心逐渐普及,利用其高带宽低时延的特性
论文部分内容阅读
硬件技术的不断发展推动了数据处理系统的更新迭代。在计算方面,现代CPU多核、众核技术的成熟让大多数据处理系统选择采用数据分区的方式实现并行计算,从而充分发挥CPU的性能。在存储方面,大容量内存集群让数据处理系统可以在处理数据前,通过提前将数据集导入内存的方式,避免传统磁盘带来的I/O瓶颈,大幅提高了处理的性能。在网络方面,随着RDMA技术的成熟,它在现代的数据中心逐渐普及,利用其高带宽低时延的特性可以有效地解决分布式系统中经典的网络瓶颈难题。数据倾斜问题一直是影响系统执行性能的重要因素之一,因此在当前硬件迅速发展的背景下,对数据倾斜问题进行重新分析研究,是一个值得探索的课题。当数据倾斜发生时,它会导致数据集在被系统导入内存后生成的数据分区大小不一致,负责处理较大数据分区的执行任务往往会成为整个执行阶段的性能瓶颈,这降低了整个执行的性能。传统的数据倾斜解决方案大多基于采样和重新分区的方式,对于采样来说,很难在精确度和引入的计算开销中进行权衡,而重新分区的方式往往需要暂停整个执行阶段,然后对数据进行重新分布。这两种方式都会带来额外的开销,所以本文重新分析了数据倾斜状态下的分布式执行方式,并在Apache Spark系统上实现了设计的优化方案,加速了Spark SQL库在数据倾斜状态下的执行性能,主要的工作和贡献如下:(1)本文提出了一种对上层用户透明并且轻量级的动态执行优化方案来处理节点内的数据倾斜问题。该优化的核心思想基于数据偷取,在数据倾斜状态下,令负责处理较小数据分区的执行任务处理完自己的分区数据后,主动从负责处理较大数据分区的执行任务中偷取数据并且进行处理。(2)在动态执行优化的基础上,本文对节点内和节点间的数据倾斜问题进行了进一步的分析,提出了两阶段数据偷取DS2来同时解决节点内和节点间的数据倾斜问题,基本思路是优先解决节点内的数据倾斜问题,然后再借助RDMA网络来解决节点间的数据倾斜问题。DS2一共包括三个阶段,分别是将数据从磁盘导入到内存的导入阶段,生成执行任务的任务生成阶段和开始处理数据的数据处理阶段。通过对这三个阶段的优化,DS2可以应对不同的执行算子以及不同数据倾斜程度导致的不同数据分布。(3)考虑到RDMA高速网络的特性和远端数据偷取的具体场景,本文设计了一个结合RDMA单边操作和双边操作的远端数据偷取方案,它充分利用了RDMA单边操作和双边操作的特点,提高了节点间数据偷取的执行效率。(4)本文在Apache Spark的基础上实现了一个可以运行的系统原型Spark-DS2,并通过在Spark SQL库上运行不同数据倾斜程度的负载,对其进行了全面的性能测试。综上所述,本文对分布式环境中节点内和节点间的数据倾斜问题进行了研究,并结合RDMA高速网络提出了两阶段数据偷取DS2,它从数据导入阶段,任务生成阶段和数据处理阶段对数据倾斜状态下的分布式数据处理进行了优化。本文在Apache Spark系统中对DS2进行了实现,并通过实验证明了该方案可以有效提升Spark SQL库在数据倾斜负载下的执行性能。
其他文献
二能级原子在强场驱动下因受激辐射而产生的共振荧光谱一直是量子光学中的中心问题。这种荧光谱具有三峰带结构,并且早在20世纪80年代人们就已经开始对共振荧光的频率选择关联进行了理论研究。最近,随着光学频率选择技术的发展,人们可以用滤波器来选择不同频率的光子进行研究,因此人们再次将目光放到对光子频率分辨效应的理论与实验研究以及频率选择过程对光子统计性质的操控上。在本文中,我们先用两个空腔来对光子进行频率
随着社会发展科技进步,人们对宇宙的探索也在层层深入。在二十世纪七十年代科学家就曾预测,发生相对论高能重离子碰撞会形成高温高密极端条件,使强子中的夸克和胶子解禁闭,从
低碳醇(HA)具有广泛的应用市场和良好的发展前景。通过合成气直接转化低碳醇途径具有极大的发展潜力。论文针对硫化钼基催化剂活性和醇选择性不足等问题,通过制备方法和载体修
新能源电动汽车作为一种提高能源利用率、降低环境污染、提升能源供给多样化的重要途径,其发展得到世界各国的高度重视,并逐步取代常规能源汽车成为主要的交通运输方式。电驱
地震波在粘弹性介质中传播会受到吸收衰减效应的影响,具体表现为能量衰减和速度频散,降低了地震资料的分辨率。反Q滤波技术是消除这些粘弹性效应的主要处理方法。基于反演的
脂质参与调控昆虫虫体的水分平衡,对维持昆虫正常的生理活动,尤其是抵抗高温干旱等不良环境胁迫有着重要作用。载脂蛋白D(Apolipoprotein D,Apo D)以及极低密度脂蛋白(Very l
作为新兴的光伏技术,有机光伏电池(OSCs)以其制备工艺简单(如卷对卷印刷加工)、价格低廉、重量轻以及易于大面积制备的优势受到广泛关注。作为光电能量转换的基础,活性层材料的设计及合成一直以来都是有机光伏领域的研究重点。近年来,得益于新型稠环受体材料的创新,有机光伏电池能量转换效率快速提升。与传统富勒烯受体相比,新型稠环受体展现出能级可调,宽光谱吸收,低成本及稳定性好等优势,发展新型稠环受体材料仍将
大叶风吹楠(Horsfieldia kigie(Hook.f.)Warb.)隶属肉豆蔻科(Myristicaceae)风吹楠属(Horsifeldia Willd.),为中国特有湿润热带雨林标识性物种。现分布于广西、云南以及海南
在本文中,我们研究了一类混合观测策略下保费可调整的Lévy风险过程(Refracted Lévy risk processes)的Parisian破产问题.本文中的混合观测策略是基于一种在离散(Poisson观测)和连续观测(Parisan延迟)之间进行切换的混合观测方案.这里所涉及的混合观测策略结合了随机观测(Poisson观测)及Parisian延迟.更准确的说,我们的混合观测策略遵循以下原则
尼罗鳄(Crodylus niloticus)和暹罗鳄(Crocodylus siamensis)在我国均为国外引进繁育的物种。本文研究了我国海南引进的尼罗鳄和暹罗鳄的繁殖生物学相关参数特征,以期分析引进鳄类在我国南方的适宜性,并为我国开展人工繁育条件下鳄类商业利用的合法性提供科学依据。本文以海南三亚鳄鱼养殖场(具备国家林业局繁殖许可证)引进的暹罗鳄和尼罗鳄所产出的卵及幼鳄(刚出孵的鳄鱼)为研究对