MapReduce计算任务调度的资源配置优化研究

被引量 : 0次 | 上传用户:sqlservermaintenance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据处理平台中任务密度和数据厚度不断增加,平台资源规模也随之不断扩展。面对错综复杂的大数据计算任务串并行执行过程和并发调度过程,如何合理配置平台资源,这直接决定了大数据处理平台的业务承载能力。现有的以面向数据并行编程模型为核心的大数据处理技术,主要着眼于计算任务调度执行过程中各种资源的并行化及相关伸缩性实现研究,却在基于不同用户和不同计算任务间相异的资源需求展开资源配置优化方面尚未展开充分的研究。大数据处理平台的资源配置优化问题,是大数据应用发展推动下形成的重要研究领域,目前相关的研究工作仍处于起步阶段。瞄准这一薄弱点,着眼于新兴的MapReduce大数据处理框架,本文对大数据处理技术特点和MapReduce计算任务调度执行过程进行了全面而深入的分析,并提出了资源配置优化的系统解决方案,从纵向的单计算任务串行执行和横向的多计算任务并发调度这两个层面对大数据处理平台资源的配置进行优化,以达到提高大数据处理平台资源利用率、加强平台业务承载能力的最终目的。本文的主要研究工作和创新点概括如下:1.从大数据处理显著的动态特性出发,为构建自适应的资源配置优化体系框架,提出计算任务运行概貌概念,为大数据处理计算任务塑型负载表征。由此出发,基于新兴大数据处理系统—MapReduce编程模型及其支撑系统的工作原理和工作机制,对MapReduce计算任务运行概貌的实际结构及组成字段进行了详细的设计和构建。进一步地,基于BTrace技术开发了非入侵式的动态探针程序,实现对MapReduce计算任务实际执行情况的细粒度实时探测,并生成具体的计算任务运行概貌值。2.基于MapReduce计算任务运行概貌,从纵向的单MapReduce计算任务串行执行层面,提出一种自适应动态资源配置自调优方法,即运行概貌-性能预测-性能优化(Profile-Predict-Optimize,PPO)方法,并依次构建了相应的MapReduce计算任务性能预测模型和MapReduce计算任务性能优化模型。其中,MapReduce计算任务性能预测模型采用基于已知计算任务运行概貌及假设计算任务资源配置计划的白盒分析方法和基于决策树学习的黑盒评估方法等进行综合建模,实现对计算任务执行性能的预测和估算。MapReduce计算任务性能优化模型则在此基础上进一步采用子空间分解和递归随机搜索技术对庞大而高维的资源配置计划解空间进行有效搜索,并基于用户优化目标和相应约束条件进行寻优比较,求出资源配置计划最优解。深入的实验评测结果表明,性能预测模型在运行探针程序额外开销下,会产生平均15.1%的计算任务执行时间过量预测,但基本能够清晰有效地识别出导致好的优化效果的计算任务配置参数值;与目前常用的经验规则方法相比,性能优化模型能在多计算任务并发执行中把计算任务执行时长改善幅度的平均值提高42%、最大值提高25.7%。3.基于计算任务运行概貌和计算任务性能预测模型,从横向的多MapReduce计算任务并发调度层面,提出一种自适应的资源感知动态并发调度方法(Resource-awareDynamic Scheduler,RDS),并据此设计和开发了RDS调度器原型。RDS调度器创新性地在多任务并发调度过程中纳入了对来自多用户的不同计算任务完成质量需求的考虑,面向多个动态随机到达的MapReduce计算任务,通过资源放置矩阵感知系统资源使用情况的最新状态,基于用户计算任务完成质量需求建立计算任务效用评估模型,以计算任务效能总值最大化为调度目标,不断动态更新计算任务在各处理机节点的资源调度分配,以达到满足平台多用户计算任务完成质量要求和提高平台总体资源利用率的双赢。综合评测结果表明, RDS调度器能够对平台资源在多个并发执行的计算任务间的分配情况进行动态调整,在放松的计算任务完成时长目标和紧缩的计算任务完成时长目标下,其表现均优于Hadoop系统提供的公平调度器,达到与其相比5-100%的计算任务执行时长的缩减。
其他文献
随着人们对室内环境空气质量的越来越重视,各类空气净化剂也应运而生。这些产品的出现从某种程度上迎合了人们的需求,各生产商、经销商趁机对其效果大肆宣扬,正面效果的鼓吹远远
大功率锂电池目前应用在UPS(uninterruptible power supply)即不间断电源、二次回路操作电源、煤矿井下救生舱、电动自行车、电动汽车等方面。目前在电动汽车上,已经开始大规
在当今高科技高速发展的时代,临床医生不仅要有扎实的基础理论知识和细致的临床观察能力,而且要不断更新知识、学习和应用现代科学技术。医学发展愈来愈显示出其对科学技术的依
进入二十一世纪之后,人类互联网的大数据时代,我们面临着一个严重的问题就是信息过载。在互联网时代有许多探索解决信息过载的方法,信息分类网站和搜索引擎就已经在解决信息过载
"V也VP"产生于五代,在五代、宋代时与"V亦VP"并用,在元代基本完成对"V亦VP"的替换。随着"连"字句和"V也VP"的发展成熟,从明代开始出现"连V也VP"。从五代到北宋,"V也VP"的肯定
<正>PREFACE/前言公允价值,一个我们既熟悉又陌生的名词。由于技术和制度等因素的影响,全面公允价值计量是会计界的努力方向和目标。当前,会计项目的计量模式是公允价值和历
目的提高消毒供应室的质量管理内涵,有效地控制医院感染的发生。方法通过消毒供应室标准化建设、建立科学的质量控制体系、人员素质培训、供应室工作过程质量管理等方面,提高
目的为预防和控制医院感染,提高消毒供应中心的工作质量,保证供应到各临床科室的医疗器械、物品达到无菌要求。方法使用洁定46系列清洗消毒器,根据物品要求进行清洗、消毒、
三年级是作文的起步阶段,学生刚刚迈入写作的门槛,而作文的要求又比低年级的写话高出一个层次,很多学生便对作文产生畏惧心理,感觉无从下手。那么,怎么才能帮助学生消除这种
近十几年来,战略联盟的数量迅猛增长,现已成为企业获取市场竞争优势的重要手段。然而,联盟企业间的合作常会陷入个体利益与其他成员利益或集体共同利益相冲突的合作困境,从而导致