基于机器学习的Spark作业性能预测模型的研究与实现

来源 :中国科学院大学 | 被引量 : 3次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于大数据处理和分布式计算的需求,很多分布式计算框架应运而生,分布式计算框架中集群资源的合理配置对计算效率有着重要的影响,因为性能预测是集群资源分配优化的基础和关键,所以对大数据计算作业的性能预测需求也越来越多。Spark作为目前大数据处理领域广泛使用的计算平台,合理分配集群资源对Spark作业性能优化有着重要的作用,本文正是基于此并结合实验室项目需求,提出了一种Spark性能预测模型。  本文通过深入分析Spark计算框架的架构和作业运行机制,选取了对Spark作业性能产生影响的相关因素:Spark作业本身设计逻辑、集群资源分配和SparkShuffle,其中后两者可以映射到Spark集群的配置参数,因此本文所建立的模型着重于作业输入数据量,作业类型和配置参数与性能之间的关系。通过对大量实验数据进行深入分析,提出了Spark作业运行关键阶段的概念,该概念是后续模型建立的基础。本文使用控制变量的方式建立了两个有关性能预测的模型,第一个模型在关键阶段的基础上只对作业的不同输入数据量和作业运行时间进行研究,提出了基于关键阶段的性能预测模型,该模型是通过收集运行的小批量数据集相关信息来预测大数据集情况下作业的运行时间,是后续模型的基础。随后本文使用朴素贝叶斯、支持向量机和决策树方法建立了不同的预测模型,模型的基本思路是选取相似作业进行预测,这其中需要计算Spark作业的相似度,文章选取使用DAG图的编辑距离计算两个作业的相似性,在计算DAG图的编辑距离的时候使用关键阶段大大简化了计算的复杂度。本文最后通过实验验证分析了本文所建立的模型具有较好的准确性。
其他文献
当前人们生活对网络服务系统的依赖性日益增强。在这种强大的需求牵引下,催生大量新兴服务及服务模式,同时促使服务系统的后端数据中心基础平台经历并正在经历着一个从传统的物
对国内外数据流离群数据挖掘研究情况分析可知,以往的挖掘算法还存在诸多问题。多数离群数据挖掘方法往往忽略了混合属性数据流的分类属性;简单的分类属性数据流离群数据挖掘
基于样本的纹理合成技术旨在由输入的小块样本生成视觉上相似的大块纹理,以有效重用光照信息,提高绘制效率。近年来,纹理合成技术已成为计算机图形学领域的研究热点之一,并取得了
基于内容的医学图像检索技术的问世是为了解决如何有效地从海量的医学图像中检索出与待诊断病例图像内容吻合的图像来辅助医生进行分析与诊断,从而提高诊断与治疗的效率和准
本文针对安全操作系统开发和安全操作系统网络适应性方面涉及的关键问题进行研究。从信息系统整体来看,安全操作系统是解决各种安全威胁的基础。在网络环境中,计算机系统面临复
在高度信息化的今天,产生的海量数据和新型数据集都对传统的数据分析技术形成挑战。数据挖掘不断突破这些挑战带来的种种局限性,为当今信息技术的发展奠定了基础。作为数据挖掘
传统密码学研究将密码实现看作理想的黑盒模型,密码分析主要基于数学的密码理论与技术,并不考虑密码实现的物理安全性。然而,密码算法需要在物理设备平台上实现,密码设备平台并非
生物免疫系统天生具有很强的自我保护能力,它可以通过自身的学习来保护自体不受细菌、病毒等外来有害物质的侵害。入侵检测作为网络安全体系中重要的主动防范技术,它所面临的
目前国内各高校均在大力发展“数字化”校园,校园一卡通作为“数字化”校园的重要组成部分之一,是集教学、科研、管理、服务于一体的集成项目,它的建设极大的促进了学校信息
随着软件行业的迅速发展,软件规模变得越来越大,与此同时,软件的复杂程度也变得越来越高。软件的应用已经涉及到人类活动的各个领域,在航空、航天、能源、通信、交通、金融、