Hadoop集群中给定候选任务集的最大利润问题

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:zhhaibin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着计算机网络和传感器网络的迅速发展,数据呈指数级增长,特别是在因特网上。为了有效地处理大规模数据,需要具有良好的可伸缩性、灵活性和容错性的并行分布式集群。目前,许多企业基于自己的Hadoop集群提供云服务。因为单个Hadoop集群的资源是有限的,Hadoop集群必须将有限的资源分配给一些特殊的任务以获得最大的利益。该文研究给定候选任务集的最大利润问题。用有效的序列描述候选任务集,并提出了一种基于序列的调度策略。为了提高查找有效序列的效率,设计了一些修剪策略,并给出了相应的调度算法。最后,在某些任务运行超时的情况下,我们提出了超时处理算法。实验表明,该算法的总收益非常接近理想的最大值,在不同的实验环境下明显优于相关的调度算法。
  关键词:MapReduce;任务集;调度算法;利润;大数据
  中图分类号:G642 文献标识码:A
  文章编号:1009-3044(2020)08-0269-05
  随着计算机网络和传感器网络的迅速发展,数据呈指数级增长,特别是在因特网上。为了有效地处理大规模数据,需要具有良好的可伸缩性、灵活性和容错性的并行分布式集群。由Google提出的MapReduce[3]架構,应用分而治之的方法来处理数据密集型任务,是大数据领域一个既成事实的标准。Google使用了一个运行MapReduce和相关技术的大型集群,诸如GFS[2]和Bigtable[3],每周处理PB级数据以上。在这种服务过程中,企业与客户之间的服务细节通常是通过服务水平协议来(SLA)[4,5]描述的。SLA分两种,根据数量定价和根据有效性定价。根据数量定价的SLA向客户收取与硬件规模和服务时间成比例的费用。根据有效性定价的SLA依据服务效能向客户收费。以垃圾邮件检测服务为例,该服务必须在一定时间内完成,因此,只有服务在规定时间内完成,才会支付款项。本文研究了如何安排客户的任务以使得Hadoop集群的总利润最大化。在研究中,主要关注的是定时MapReduce任务,它是以时间的有效性为代价的,即任务必须在给定的时间内完成。在这里将每个任务抽象为四个部分,即用户定义的Map/Reduce函数、完成时间、利润和惩罚,并试图找到一个最大化Hadoop集群总利润的调度算法。
  1 相关知识
  这一部分简要介绍了MapReduce,然后回顾了有关MapRe-duce任务调度的工作。
  1.1 Mapreduce环境
  MapReduce是一种流行的面向数据密集型任务的编程模型,在许多领域得到了广泛的应用[6-8]。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且可以部署在低廉的Clow-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。图1所画的就是MapReduce框架,在用户定义的map函数中,输入是一个键值对,输出是零或多个键值对。在组步骤中,具有相同密钥的系统组键值对会被发送到相同的还原节点。在自定义的Reduce函数中,组合键值对处理产生的结果。MapReduce任务通常需要多次Map/Reduce迭代。
  1.2相关工作
  在MapReduce,有一些通用的任务调度程序,如FIFO调度器、基于容量的调度器和基于公平的调度器。在具体应用中,Sandholm和Lai等人提出了一种调度算法,允许用户根据Ma-pReduce任务的重要性动态调整需要的计算资源。Zaharia等人提出了异构集群环境下的调度算法,Kwon等人提出了skew-tune算法处理MapReduce任务的过程偏度。此外,还有一些调度算法,涉及在给定时间内完成的MapReduce任务。
  1.3存在的问题
  在本文中,目的是最大限度地提高同类的Hadoop集群的总利润,其中所有节点的计算能力是相同的。在一个Hadoop集群中,有M个Map任务,M个Reduce任务,对于每个提交的任务j,假设以下参数:
  j.N,j中的Map作业数。
  j.Nr,j中的Reduce作业数;为了获得高效率,j.N初j.N,是M的整数倍。
  i deadline,j所规定的时间或期限。
  j.profit√在截止时间前完成所获得的利润。
  在上述两种情况下,都不可能按时完成JS中的所有任务,因此S必须不是有效的序列。
  基于定理1和2,可以得出结论,所提出的调度策略对于固定序列S是最优的。这意味着如果在提议的策略下存在超时任务,那么它们必须存在于任何其他调度策略中。
  1.4.2调度算法
  在提出的基于序列的调度策略的基础上,本文提出了一种调度算法。首先,当候选任务设置是静态的,使用的评分策略为所有任务指定优先级,将找到可接受的任务并为其设定一个有效的修剪策略,并发现一个有效的序列。其次,当候选的任务集实现了动态更新,会执行增量法判断可接受的任务集和更新有效序列是否必要。
  现在,分析了如何提高查找有效序列的效率。假设候选集通过公式2的计算进行了排序,即,穷举搜索法需要(|A| 1)!遍历所有候选序列的复杂性。为了提高搜索速度,给出了以下两种方法。
  2 实验
  2.1 实验设置
  在实验中,Hadoop集群包含一个主节点和40个从节点,每个节点包含一个英特尔酷睿i3 3.1 GHz处理器,8 GB的内存和500 GB的存储,运行的操作系统是RedHat Linux 6.1。在从节点中,每个节点配置两个Map任务槽和两个Reduce任务槽。实验中的数据是enwi:ki(https;//dumps.wikimedia.org/enwi:ki/20150204/)’运行了三个经典任务的数据集,即,统计词频,倒排索引、分布式grep。数据存储在Hadoop文件系统(HDFS)中,每一块是64MB,每个数据块有三份拷贝。对于一个候选任务集j,主要考虑以下三个影响性能的参数:   1)平均任务尺寸L,即L中所有任务的平均尺寸(块数);
  2)任务数N,即L中任务的数量;
  3)平均期限D,即L中所有任務的平均期限(完成时间)。
  总利润的计算在公式l中。此外,定义接收率和完成率如下:
  接受任务集的大小
  (3)
  接受率= 候选任务集的大小
  完成的任务数
  完成率= 接受的任务数
  (4)
  2.2 实验结果
  在实验中使用的基线算法是DC和WC。首先评估了任务数对总利润的影响,结果如图2所示。在图2a中,理想曲线是理想的利润,随着平均任务规模的增加,所有利润值都减少,但此方法接近理想值。在图2b中,所画的三个接收率逐渐降低,但此方法具有最高的价值,这意味着此方法可以获得最多的候选任务。在图2C中,所提出的方法比另外两种方法有更高的完成率。由于此方法不仅接收到最多的候选任务,而且完成大部分任务,因此可以带来最大的利润。
  同时,观察了任务数和平均截止期对总利润的影响,结果如图3所示。由于同样的原因,方法不仅接收到最多的候选任务,而且完成大部分任务,因此可以带来最大的利润。此外,对三种情况的总利润非常接近理想值。
  最后,动态地将任务提交给Hadoop集群,观察总利润的变化。在图中,水平轴是经过的时间,垂直轴分别是总利润、接收率和完成率。从数据可以看出,此方法不仅接收到最多的候选任务,而且完成大部分任务,因此可以带来最大的利润。这说明所提出的方法也适用于动态提交的任务。
  3 结束语
  本文研究了Hadoop集群中的最大利润问题,该资源在整个候选任务集中所占的资源不足。为了使利润最大化,基于候选任务集的有效序列选择了一些高利润率的任务。此外,为了提高查找有效序列的效率,设计了一些修剪策略,并给出了相应的调度算法。实验表明,该算法的总收益非常接近理想的最大值,在不同的实验环境下明显优于相关的调度算法。
  参考文献:
  [1]李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014(12):45-49.
  [2]王静蕾.Hadoop云计算框架中的分布式数据库HBase研究[J].商丘职业技术学院学报,2014(2):18-20.
  [3lchu cheng,et al.Map-reduce for machine learning on multicore[C]//Advances in neural information processing systems,2007,25[4]:19-281.
  [4]1nza I,Larranaga P,Blanco R.Filter versus wrapper gene se-lection approaches in DNA microarray domain[J].Artificial In-telligence in Medicine, 2004,31(2):91-103.
  [5]向丽辉,缪力,张大方.压缩对Hadoop性能影响研究[J].计算机工程与科学,2015(2):207-212.
  [6)杨倩茹,黄梦醒,万兵,一种引入内存平衡的Hadoop平台作业调度算法[Jl.小型微型计算机系统,2014(12):2708-2011.
  [7]孙彦超,王兴芬.基于Hadoop框架的MapReduce计算模式的优化设计[J].计算机科学,2014(11):333-336.
  [8] B.K. Tripathy; Dishant Mittal;, Hadoop based uncertain possi-bilistic kernelized c-means algorithms for image segmentationand a comparative analysis[Jl. Applied Soft Computing. 2016,46(C):886-923.
  [9]Ganesh S,Binu A.Statistical analysis to determine the perform-ance of multiple beneficiaries of educational sector using Ha-doop-Hive[C]// International conference on data science
其他文献
摘要:如何提升兼职教师教学能力、实现对兼职教师的有效管理不仅是工学结合环境下培养高技能人才的需要,也是高职院校师资队伍建设的必经之路。有效管理兼职教师有利于兼职教师队伍的发展和稳定,有利于打造理论、实践技能兼备的教学团队,也有利于教学、实践、科研水平的整体提升。总的来说,对兼职教师进行有效教学管理有利于兼职教师队伍的发展和稳定,有利于打造理论、实践技能兼备的教学团队,也有利于教学、实践、科研水平的
摘要:伴随信息化、大数据时代的来临,移动学习模式得到了极大发展,微信公众平台作为一款移动多媒体工具,可用于移动学习,能给学习者带来更加舒适、便捷的学习体验。本文利用微信公众平台构建医学遗传学的移动学习模式,取得了较好的学习评价效果。  关键词:微信公众平台;医学遗传学;移动学习  中图分类号:TP393 文献标识码:A  文章编号:1009-3044(2020)01-0131-02  随着信息时代
摘要:针对传统空气质量检测系统存在的问题,提出了一种基于无线传感器网络的室内空气质量检测系统。详细阐述了无线传感器网络室内空气质量检测系统的设计思想、硬件结构和软件的设计方法。使用CC2530组成无线传感器网络,采用多个传感器节点对室内一氧化碳、二氧化碳、氧气、甲醛、PM2.5以及温湿度进行检测,实时显示检测结果并进行超限报警。  关键词:无线传感器网络;空气质量;检测  中图分类号:TP277;
摘要:本文基于森林公安教学参考案例数据库的建设实践,总结分析了公安院校专题数据库建设的原则、主要内容与建设流程,希望能够为相关院校开展专题数据库建设提供借鉴。  关键词:数据库;特色资源;公安院校  中图分类号:G250 文献标识码:A  文章编号:1009-3044(2021)18-0009-03  开放科学(资源服务)标识码(OSID):  1引言  公安院校教学参考案例数据库是公安院校文
摘要:针对当前民航西南地区人工收集气象报文经常出现网络中断、设备故障及手工录入出错等问题,设计并实现了一套民航气象西南地区人工收集气象报文系统,提供基于互联网网络和浏览器方式进行气象报文收集功能。系统采用c#语言,在Visual Studio 2013环境下开发,基于.NET架构。  关键词:航空气象;气象报文;人工收集  中图分类号:TP311 文献标识码:A  文章编号:1009-3044(2
摘要:随着考勤指标的复杂性日益加大,部分局限于公司内网的考勤系统面临操作、统计不便等问题,全面、快速、有效地掌握公司的考勤运行数据,对主要考勤指标实现动态监测,支撑公司考勤管理工作的需要也日益迫切。在分析内网考勤的局限性和考勤指标需求的基础上,基于企业微信建立一套移动考勤系统,对考勤数据进行监测和分析。最后以某单位的互联网考勤系统实例验证了该系统的可行性及实用性。  关键词:考勤管理;企业微信;移
摘要:以“对初中化学常见放热反应的探究”教学为例,在智慧课堂的环境下,在信息技术下与初中教学进行有效整合,通过多媒体教学创設生动有趣的教学情境,实现知识的自主建构,增强了学生的学习动力,提高课堂教学效率。  关键词:智慧课堂;信息技术;放热反应;教学设计;活泼金属与酸  中图分类号:G424 文献标识码:A  文章编号:1009-3044(2021)21-0175-02  开放科学(资源服务)标
摘要:“大众创业、万众创新”的提出,是对我国人才培育工作的进一步优化,它既是高校教育的重要组成部分,也是学生创业能力的培养助力,对高等教育产生了实践性的教育和引导。结合5G(第五代移动通信技术)的发展,本科大学生在提高“双创”的过程中,应积极探究创业创新的发展策略,更好地实现人生价值,成为更加全面的应用型复合教育人才。本文立足装饰画的艺术形式,围绕高校大学生双创能力的推进进行积极的探究,供大家借鉴
摘要:高质量的教育资源是开展智慧学习的关键,如何在移动互联的智慧学习环境下构建高质量的跨平台移动学习资源,推进信息技术与教育教学的深度融合显得至关重要。在教育改革的大潮中,依托翻转课堂的混合式教学涌现了大量的成功案例。未来的教育和学习是什么样子的,也许可以从中找到一些答案。将移动学习,翻转课堂聚焦于大学物理,选择构建移动虚拟实验模型Web App,能够辅助物理课程的教学和学习,为翻转课堂提供学习支
摘要:笔者经过前期对旅游管理专业大学生的英语学习现状进行了解后,探索构建一个基于新媒体的英语第二课堂学习平台,主要在微信公众号平台进行研究。笔者通过构建线上平台学习资源库内容,将英语课堂内容上传至平台系统;设置旅游行业话题单元、背景知识拓展、英语学习讨论与分享等线上学习模块;与线下英语沙龙、双语竞赛等活动相结合,为学生创设英语学习环境,更好地提升教师教学效果,为学生利用碎片时间学习英语提供平台基础