大数据分析系统逻辑数据块亲和性调度算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:easelin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的开启,互联网中的数据以井喷的方式增长。大数据已经成为当前互联网产业中重要的组成部分。构建自有大数据分析系统已经成为各互联网公司的首要任务。在大数据相关领域中,已经出现许多经过实际检验的优秀产品,通过这些产品的组合,就可以形成多种大数据分析系统。但是在现有的大数据分析系统中,任务调度算法和数据分布算法考虑不足,且并行处理层和数据存储层缺少协作,无法保障任务本地性,使系统负载不均衡,最终使系统中资源利用率不高。因此,设计一种调度算法合理利用大数据分析系统中的资源是大数据分析领域一个重要课题。针对上述问题,本文通过对大数据分析系统的建模,提出了一种在大数据分析系统中运行的逻辑数据块亲和性调度算法。该算法利用从并行处理层和数据存储层获取的实时信息,采用干涉任务调度和调整逻辑数据块分布的方式,在满足任务本地性的基础上,减少系统中过载的工作节点,平衡系统中的负载,达到提高系统资源利用率的目的。本文具体包括以下工作内容:(1)分析热点问题评估因子,制定热点判定规则。当大数据分析系统中出现热点问题时,工作节点的某些硬件检测指标会发生明显变化,从这些指标中确认热点问题的评估因子,然后根据评估因子特性,最终决定热点判定规则。(2)实时监控系统状态,为算法决策提供数据支持。实时监控并行处理层的任务划分情况和数据存储层中逻辑数据块的分布情况,周期性采集工作节点与负载状态相关的信息,并及时根据任务执行状态和逻辑数据块移动消息更新缓存信息。(3)设计并实现JLQ算法。通过系统建模和分析任务本地性,提出位于并行处理层的JLQ算法。JLQ算法通过干涉任务调度,将任务分配到数据所在节点,再依据空任务队列解决方案对任务进行实际派发,使任务初步满足本地性。(4)设计并实现LAS算法。LAS算法在大数据分析系统中数据独立模块,在已有的数据分布算法基础上,根据任务分配信息和逻辑数据块分布信息,利用热点判定规则,对现有的逻辑数据块作出适应调整,在尽力满足任务本地性的基础上,平衡节点负载,提升系统利用率。本文以TPCx-BB和实际生产集群中的数据作为数据集,选择Spark默认调度算法和另外两种调度算法作为对比算法进行实验。实验结果证明本文提出的逻辑数据块亲和性调度算法在两种数据集中相比于Spark默认算法分别有20.48%和23.97%的性能提升。最终对本文提出的调度算法进行适用性分析,讨论算法使用场景。
其他文献
目的:探讨在现实环境中采用功能性步态训练(FGT)以强化恢复期卒中偏瘫患者的平衡反应及姿势控制能力对其早期社区生活活动能力及平衡信心的影响,以及对活动中跌倒事件的预防作用
重视道德教育是中国古代教育的优良传统。近现代西方道德教育的没落,带来诸多社会弊病,教训非常深刻。在市场经济加速发展的今天,我们应引以为戒。德育能对人的行为和其他素质起
政治理论课教学是军队思想政治教育的主渠道主阵地,肩负着培养中国特色社会主义事业坚定举旗人和可靠接班人的神圣使命,对学员树立马克思主义的世界观、人生观和价值观以及坚
儒家“和”思想在博大精深的传统文化中占有非常重要的地位,在中华民族几千年的发展长河中,曾对调整阶级关系、维护社会稳定及增强民族凝聚力等方面起了非常重要的作用。“和”
2010年,沪深300股指期货在经历了仿真交易平台试运行后,在中金所正式上市。为了使股指期货市场更好的发挥规避风险的作用,中金所陆续推出以上证50和中证500指数为基础的期货合约。但2015年股市遭遇危机,股指期货市场也未幸免于难,投资者纷纷退出市场,导致市场接近崩溃边缘。监管部门立即采取措施,调整市场交易机制以达到稳定市场目的。但严格的交易限制导致股指期货市场活力显著下降,股指期货的市场功能逐渐
目前,石化企业仍有不少的50~100MW汽轮发电机组在运行。这些机组一般都采用直流励磁机的励磁方式,在运行中最常见的故障是直流励磁机中电刷和换向片间出现较大火花。现简介如何
对技校学生来说,学习的最终目的不仅在于书面考试成绩的高低,还应包括在具体场合下的动手独立操作能力的强弱。因此,不论是什么专业的技校毕业生,走入工作岗位后,最终能体现教师教