ETL中数据清洗方法研究与实现

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：tsh8236

【摘要】

：

随着数据仓库、数据挖掘技术的广泛应用,ETL(Extract,Transformation,Loading)作为数据仓库建设中的重要步骤越来越受到开发人员的重视,它决定着数据仓库数据质量以及决策分

【作者】

：

裴莹

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着数据仓库、数据挖掘技术的广泛应用,ETL(Extract,Transformation,Loading)作为数据仓库建设中的重要步骤越来越受到开发人员的重视,它决定着数据仓库数据质量以及决策分析的效果。本文对ETL中的数据清洗方法进行了研究,并进行了实现,使ETL过程能够更有效的对数据进行处理,为数据仓库的建设提供更好的支持。　　本文首先介绍了数据ETL相关的一些基本理论和技术,如ETL、元数据、CWM(Common Warehouse Metamodel)以及数据质量等。其次,针对数据清洗方面的重点算法--相似重复记录检测算法进行了研究,提出了基于改进的K-medoids聚类的相似重复记录检测算法。该算法使用编辑距离与领域专家对权值设定相结合的方法,得到各条记录间的相似度,使用此相似度值对所有记录进行聚类,得到相似重复记录的检测结果。在算法运行过程中,通过比较相似度与预先设定的相似度阈值的大小,自动增加或减少聚类个数,使结果更加准确。通过实验分析,验证了该算法的有效性。接下来,对基于CWM元数据标准的数据清洗方法进行了研究,并提出了基于元数据驱动的标准ETL设计与开发过程,给出了具体的实现步骤。最后,对本文的主要研究成果进行了总结和展望。　　总之,本文的研究成果对于ETL算法研究和ETL工具开发具有重要的参考价值,对CWM标准的应用和元数据交换策略的选择也具有很好的借鉴作用。

其他文献

JAR包信息搜集和整理工具的设计与实现

软件复用能够有效的减少软件开发中的重复劳动，是提高软件生产率和质量的有效途径。存在大量的可复用软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展，在In

学位

软件复用软件资源库软件开发搜索子系统信息收集

基于支持向量机的入侵检测研究与分析

计算机网络的快速发展，给人们生活带来便利的同时，人们对其依赖程度也与日俱增。同时，频繁发生的网络攻击事件不但严重影响了人们的正常生活，也给社会造成巨大经济损失。入侵检测

学位

支持向量机入侵检测机器学习特征选择

基于Foundation1平台的审批流程控制的设计与实现

近年来,世界能源短缺严重制约着各国经济建设、社会发展和环境保护。在我国这样一个人口大国中,电力资源的短缺问题更是越发严重。全国各地都在积极响应国务院颁布的《核电中

学位

ERP系统IFS应用系统审批流程控制

微内核安全虚拟内存管理设计与实现

操作系统一直是计算机领域内一个重要的课题，如何构建一个安全并且高效的操作系统，是操作系统研究的目标。　　一直以来，操作系统的内核设计有两个方向，微内核结构和宏内核结构

学位

操作系统微内核虚拟内存管理可扩展性

工具书在线后台管理的实现

在出版界，人们一直在尝试着将传统纸质的书目资源电子化，借助互联网平台，推广书目，增加书目的受众。并且借助于搜索引擎技术，提高书目的使用效率。　　商务印书馆是具有百年历史

学位

工具书在线系统后台管理用户日志管理互联网平台搜索引擎

一种基于概念划分的不确定连续最近邻查询

随着基于不确定数据进行数据挖掘和知识发现的研究的深入,这种更加符合客观实际的理论方法越来越成为近年来研究的热点。空间数据固有信息的海量性和复杂性使得传统的数据查

学位

空间不确定数据最近邻连续最近邻P-CNN概念划分T-CPM

基于共享Web服务的跨组织协同研究

随着社会分工越来越细，企业与企业之间通过协同完成业务目标已成为不可逆转的趋势。从最终用户的角度来说，他们所使用的产品、享受的服务往往是由多个企业，通过整合自身资源相互

学位

共享Web服务跨组织协同决策空间复杂度事务执行引擎

关联规则的相关算法研究--基于Apriori和FP-growth算法

数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容，而如何

学位

一种基于多级网格和改进QR-树的混合索引

随着信息技术的深入发展,各领域不断产生大量的空间数据,面对海量的空间数据,针对其特殊性以及空间查询的高度复杂性,应用中必须引进空间索引技术来提高空间数据库的查找性能

学位

多级网格索引QR-树混合索引空间数据库索引技术

基于语言知识库的无导词义排歧方法研究

随着计算机和人工智能科学的发展，人们普遍希望计算机能够理解自然语言，即人类的语言，以帮助人们解决许多问题。例如语言分析、机器翻译、信息检索、文本分类等。自然语言处理的

学位

语言知识库中文概念词典无导词义消歧向量空间模型自然语言处理

ETL中数据清洗方法研究与实现

其他学术论文