ETL中数据清洗方法研究与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:tsh8236
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据仓库、数据挖掘技术的广泛应用,ETL(Extract,Transformation,Loading)作为数据仓库建设中的重要步骤越来越受到开发人员的重视,它决定着数据仓库数据质量以及决策分析的效果。本文对ETL中的数据清洗方法进行了研究,并进行了实现,使ETL过程能够更有效的对数据进行处理,为数据仓库的建设提供更好的支持。   本文首先介绍了数据ETL相关的一些基本理论和技术,如ETL、元数据、CWM(Common Warehouse Metamodel)以及数据质量等。其次,针对数据清洗方面的重点算法--相似重复记录检测算法进行了研究,提出了基于改进的K-medoids聚类的相似重复记录检测算法。该算法使用编辑距离与领域专家对权值设定相结合的方法,得到各条记录间的相似度,使用此相似度值对所有记录进行聚类,得到相似重复记录的检测结果。在算法运行过程中,通过比较相似度与预先设定的相似度阈值的大小,自动增加或减少聚类个数,使结果更加准确。通过实验分析,验证了该算法的有效性。接下来,对基于CWM元数据标准的数据清洗方法进行了研究,并提出了基于元数据驱动的标准ETL设计与开发过程,给出了具体的实现步骤。最后,对本文的主要研究成果进行了总结和展望。   总之,本文的研究成果对于ETL算法研究和ETL工具开发具有重要的参考价值,对CWM标准的应用和元数据交换策略的选择也具有很好的借鉴作用。
其他文献
软件复用能够有效的减少软件开发中的重复劳动,是提高软件生产率和质量的有效途径。存在大量的可复用软件资源是软件复用的前提和基础。随着Internet和软件复用技术的发展,在In
计算机网络的快速发展,给人们生活带来便利的同时,人们对其依赖程度也与日俱增。同时,频繁发生的网络攻击事件不但严重影响了人们的正常生活,也给社会造成巨大经济损失。入侵检测
近年来,世界能源短缺严重制约着各国经济建设、社会发展和环境保护。在我国这样一个人口大国中,电力资源的短缺问题更是越发严重。全国各地都在积极响应国务院颁布的《核电中
操作系统一直是计算机领域内一个重要的课题,如何构建一个安全并且高效的操作系统,是操作系统研究的目标。   一直以来,操作系统的内核设计有两个方向,微内核结构和宏内核结构
在出版界,人们一直在尝试着将传统纸质的书目资源电子化,借助互联网平台,推广书目,增加书目的受众。并且借助于搜索引擎技术,提高书目的使用效率。   商务印书馆是具有百年历史
随着基于不确定数据进行数据挖掘和知识发现的研究的深入,这种更加符合客观实际的理论方法越来越成为近年来研究的热点。空间数据固有信息的海量性和复杂性使得传统的数据查
随着社会分工越来越细,企业与企业之间通过协同完成业务目标已成为不可逆转的趋势。从最终用户的角度来说,他们所使用的产品、享受的服务往往是由多个企业,通过整合自身资源相互
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容,而如何
学位
随着信息技术的深入发展,各领域不断产生大量的空间数据,面对海量的空间数据,针对其特殊性以及空间查询的高度复杂性,应用中必须引进空间索引技术来提高空间数据库的查找性能
随着计算机和人工智能科学的发展,人们普遍希望计算机能够理解自然语言,即人类的语言,以帮助人们解决许多问题。例如语言分析、机器翻译、信息检索、文本分类等。自然语言处理的