OnceDI中可视化ETL工具的设计与实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:syh95815
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展、企业信息化的不断深入,企业中分布的数据、信息和知识更加多样,更加复杂,企业信息系统更加开放。如何实现企业中这些数据、信息和知识集成和共享已成为关键性问题。数据集成技术正是针对这种需求,实现分布、异构、复杂数据、信息和知识的动态、灵活、实时的集成和共享。   OnceDI2.0很好的解决了在数据级别上异构数据源的互操作问题,满足不同的数据集成需求,跨平台,跨多种数据源,具有增量传输,冲突解决等多种实用机制,并提供完善的安全和管理工具。然而,它也存在缺陷,包括:接收数据源只能根据接收到的数据块定义,这时已经完成了数据的发送过程;发送数据源和接收数据源的字段对应关系必须完全由人工构建等问题。   数据集成的目标是为用户访问多个分布的、独立的、异构的数据源提供统一的应用界面。在ETL(Extract-Transform-Load,即数据抽取、转换和加载)过程可视化配置中,包含如何让用户更好地理解ETL过程以及如何让用户更有效地、更容易地配置、管理和执行ETL过程等问题。   论文在研究数据集成过程特点基础上,围绕数据集成中的可视化ETL过程的问题,确立了本文关于数据集成中数据转换和数据过滤的研究方向。针对数据转换,论文从模式匹配和实例转换两方面入手。在模式匹配方面,论文提出一种本体辅助的自动化模式匹配算法,它包括三部分:决策树学习和WordNet词汇本体相结合的方法计算属性名称匹配,定义属性数据类型本体解决带数据类型的属性匹配以及利用领域本体构建属性间的非直接映射关系解决一对多的语义匹配。该方法使得数据转换的可视化过程操作更加简便,自动化匹配结果更令用户满意。在实例转换方面,论文提出一种实例转换工具的设计方案,界面更加友好,更重要地,使得用户对实例级别的转换操作更加清晰、简单。针对数据过滤,论文从数据质量控制条件设置的特点入手,提出一种数据质量控制条件设置工具设计方案。   最后,本文针对OnceDI3.0中的数据集成模型和OnceDI3.0客户端-控制中心-DI服务器的三层体系结构设计实现数据集成中的可视化ETL工具,在设计中通过设计模式的应用增强了系统的可扩展性。
其他文献
网络技术和信息处理技术的飞速发展,使得人们由信息贫乏时代进入到一个全新的信息极度丰富的时代。面对纷繁复杂、包罗万象的信息资源,人们感到无从下手、难以找到自己感兴趣的
矢量笔迹是通过数码笔等计算机笔输入设备采集的,由笔划组成。笔划包含时序采样点,采样点具有坐标、时间和压力等。中文矢量笔迹文本具有复杂的组成单字,例如类型多样、间距较小
随着移动设备技术的不断发展,手机、PDA、电子书阅读器等手持电子设备已经广泛应用于人们的生活,硬件的性能和显示能力有了质的飞跃,而硬件设备的技术发展也带动了手持阅读器软
“仿真是一种基于模型的活动”,任何仿真系统都不能离开模型的支持,如果每次开发新的系统都要重新建立模型,费时费力。随着仿真系统的日益复杂,导致仿真模型的结构也日趋复杂,模型
流媒体(Streaming Media)技术是一种实时的连续时基媒体,媒体的分发不需要等待整个媒体文件下载结束就可以播放,极大节约了时间和播放硬件成本。广泛应用于多媒体视频点播,电
面对因特网上海量的信息,如何给用户最感兴趣的最需要的信息,成为各网站的一个重要的问题。为解决这个问题,个性化推荐系统应运而生。 基于用户的协同推荐算法被广泛使用在推
Web应用的性能测试是保证Web软件质量和可靠性的重要手段。通过性能测试不仅能够验证系统是否满足需求设计中对系统响应时间等指标的要求,还能够分析得出系统瓶颈可能存在的区
随着软件应用和网络技术的飞速发展,人们对分布式应用的需求越来越大。缩短复杂应用系统的开发周期、降低开发成本和难度、提高系统的可扩展性和可复用性、提高软件质量成为
快速傅立叶变换(FFT)是公认的二十世纪最重要的十个算法之一。它在信号处理,多媒体压缩,模式识别,计算化学等众多领域有着广泛的应用。众所周知,傅立叶变换的研究是从一维开始,并
随着信息技术的发展,Pub/Sub系统由于具有异步和松耦合的特点,被越来越广泛的应用到金融、供应链管理、物流等领域。在这些应用中,用户对具有各种特定逻辑或时序关系的复合事件