一种面向Hadoop平台的工作流模型的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:sunning1002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop平台已经成为大数据处理的主流平台,然而随着数据处理任务的业务和技术复杂性越来越高,企业单纯使用Hadoop平台解决此类问题遇到越来越多的问题:MapReduce任务模型难以描述流程复杂的数据分析任务;任务开发、任务发布及管理等成本高。本文设计了一套面向Hadoop平台的工作流模型,通过工作流模型来定义Hadoop任务流程、属性、执行条件等,将Hadoop任务抽象为有向无环图,实现对复杂任务的建模、管理和调度执行,有效降低任务从开发到发布和管理的额外成本。本文主要研究工作分为两部分,任务建模和任务调度。  (1)任务建模。本文设计了一套适用Hadoop任务的工作流模型描述语言,模型描述语言是一种元模型,拥有描述工作流任务流程、工作流属性以及工作流执行条件的能力,对工作流中的数据处理任务以及他们之间的依赖关系进行建模。Hadoop工作流模型支持HDFS、MapReduce、Pig、 Hive、Java、Shell、Python等任务类型,以及顺序、并行、条件分支等逻辑关系。此外,任务模型通过定义执行条件,实现按时间合法性、数据有效性条件进行定时和触发调度。  (2)任务调度。首先,本文实现了根据时间合法性条件进行定时调度和根据数据有效性条件进行触发调度的调度方法。其次,对于单个任务的执行,分为工作流模型解析和工作流模型执行两个关键环节。本文设计了工作流模型拓扑扫描的解析算法,将工作流模型解析为以顺序路径为单位的拓扑结构,作为工作流执行引擎的输入单位。为了处理不同类型的任务节点以及节点之间的并行和条件分支关系,工作流执行引擎采用基于反馈的调度执行算法,通过工作流调度控制中心、并行调度进程、条件分支调度进程、顺序路径调度进程等各进程之间的信号反馈进行协调合作,完成Hadoop工作流模型的任务调度。  
其他文献
由于企业信息化本身是一个演进的过程,因而在企业中存在许多不同的遗留应用系统,并且有些遗留已经成为企业分布式计算环境的关键组成部分,不能够被替代.这些遗留应用需要与外
该文主要研究基于径基函数(Radial Basis Function,RBF)神经网络模式分类方法以解决人工嗅觉系统中的学习问题.为此,该文提出了自适应模块化RBF型神经网络分类器,每一个分类
人们一直在关心和研究的异构机型、异构操作系统、异构数据库以及异构网络环境下信息共享与可移植性的问题。如何根据企业自身环境,选择适合企业自身环境的应用程序开发模式,开
消息中间件是中间件领域中应用最广泛、销售量最大的一类中间件产品.它为应用程序提供可靠的消息通信手段,能够在不同的操作系统平台、硬件系统之间进行数据通信.该文给出一
我们正处在网络技术、通讯技术和信息技术飞速发展的时代。随着我国加入WTO以及经济全球化发展的日益加快,对企业竞争力的认识也在不断地深化。面对新的机遇和挑战,如何更好
随着数字视频数据量的增加,急需一种基于内容对视频片段进行快速检索和测览的技术,这一技术便是基于内容的视频检索技术,目前,该技术已成为国际上多媒体领域研究的一个热点问
为了有效解决企业信息发布多样性、不确定性、实时性和低成本的问题,本文从柔性软件理论和信息发布系统领域两个方面,对国内外研究现状进行了深入分析的基础上,对柔性企业信
该文分析了多层感知器的分类机理,提出在输入空间中隐基本函数所决定的超平面并不起到分界面的作用.该文认为隐节点数只与类别数和样本在输入空间的分布情况这两个因素有关.
对称群的计算机图形化研究已成为当今科学研究中的热点问题,许多科学家已经对二维、多维空间的对称群进行了研究.该文在Sprott等人的研究成果基础上,实现了随机搜索饰带群映
Internet作为一个全世界信息发布和交流的中心,正在改变人们对信息处理的传统观念。XML具有自描述特点,支持用户自定义标记标明数据的语义,逐渐成为Internet中信息描述和信息交