分布式环境的ETL工具XTL的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zhouxiaoqing1003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据仓库的构建过程中,工作量最繁重、问题最多的就是业务系统中的异构数据到数据仓库的迁移过程。ETL(抽取、转换和加载,Extraction-Transformation-Load)工具的任务是负责从不同种类和形式的操作型业务系统中抽取数据,进行必要的转换和清洗,将其加载到目标数据仓库。 本文针对数据仓库化建设过程的需求,主要对分布式环境的ETL过程的模型以及ETL过程中的数据转换和清洗服务进行了研究,包括: 1)根据ETL过程流程化的特点,一次ETL过程往往是对若干数据集合进行多个相关转换或清洗的有序组合,本文研究并设计了基于工作流的ETL模型,定义了一个包括流程、活动、转移和操作四个基本元素的ETL模型;并实现一个轻量级的工作流引擎,作为灵活设计和维护ETL过程的基础支撑。 2)由于ETL过程要处理的数据往往分布在不同结点的业务系统中,如果将这些数据进行集中式的处理,则对负责ETL过程处理的机器性能要求较高,同时原始数据的传输也要求较大的带宽。本文研究了分布环境中的ETL任务调度和协调框架,即由启动ETL过程执行的结点充当主控引擎,负责对ETL任务进行划分,并将这些任务分片分发到相关的结点;相应的结点接收到任务分片后,启动本地引擎完成ETL处理,通知主控引擎并返回输出结果。 3)研究设计了一系列的数据质量控制规则,包括模式级别的数据转换规则、实例级别的数据清洗规则,另外还提供支持数据仓库维护工作的增量ETL过程。 4)设计一套元数据模型来描述ETL过程,元数据记录了包括ETL过程的流程控制信息以及记录整个ETL过程中的抽取、加载策略和转换、清洗规则两个部分的信息。 在以上研究之上设计并实现了ETL原型系统"XTL",在原型系统上进行的实验表明:文中设计的基于工作流的ETL模型能正确的描述ETL过程,分布式ETL任务调度和协调框架能有效提高分布式ETL过程的性能,数据质量控制模块能有效帮助用户进行数据的转换和清洗工作。原型中ETL任务在分布式环境中的调度和协调具有一定的新颖性。
其他文献
随着信息技术与互联网应用的迅速发展。政府、企业、高校等机构的信息系统的建设面临着巨大的挑战,主要体现在两个方面:一是面对由于历史原因产生的各种“信息孤岛”如何实现
我们正处在信息化的社会,大量信息在给人们带来方便的同时也带来了一大堆问题:第一是信息过量,难以消化;第二是信息真假难以辨识;第三是信息安全难以保证;第四是信息形式不一致,难以
随着互联网技术的迅速发展,形式多样的数字化产品正把人们的生活融入到互联网中;目前,下一代互联网的脚步越来越近,数字家庭的概念也逐步走入人们的视线。在未来的家庭中,通过
随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。管理信息系统是一个不断发展的新型学科,任何一个单位要生存要发展,要高效率地把内部活动
研究表明,神经网络对于参数扰动的敏感性是衡量网络性能的一个重要尺度。参数的扰动对于网络的输出会有怎样的影响呢?如何来度量神经网络对于参数扰动的敏感程度是当前最需要
随着深度学习技术的快速发展,图像以及视频的风格化成为了近些年来的研究热点。而基于神经网络的风格化应用Prisma甚至风靡了社交网络,在多个国家苹果商店占据了一段时间榜首。
近几年随着Internet的迅速发展,P2P网络应用变得越来越流行,其中最重要的一种应用就是Bit Torrent。Bit Torrent文件共享的广泛应用给盗版者带来了很大的便利,使盗版传输变得
随着企业信息化建设的飞速发展,国内电力设计院开始大量的采用各种工作流管理软件。凭借这些工具,设计院有效的解决了信息化过程中遇到的一些瓶颈问题,增强了协同工作的能力,从而
图像分割是指根据灰度、彩色、空间纹理、几何形状等特征把图像划分成若干个互不相交的区域,使得这些特征在同一区域内,表现出一致性或相似性,而在不同区域间表现出明显的不同。
软件开发环境是开发人员进行软件开发活动的重要平台。传统的开发环境对于开放性及可扩展性支持明显不足,而基于插件体系结构的软件开发环境如Eclipse等,由于其自身结构的特点,