数据清理关键技术及其软件平台的研究与应用

被引量 : 36次 | 上传用户:nilaopopodi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国目前正在大力推广信息技术,实施各行各业的信息化工程,如代表制造业信息化潮流的 ERP(Enterprise Resource Planning,企业资源计划)系统,电子政务系统,医疗保险信息系统,以及其它各类形式的信息系统。随着信息化的进展,企业积累了大量的电子数据,这些数据非常珍贵。用户录入错误、企业合并以及企业环境随着时间的推移而改变等因素,都会影响数据的质量。为了更好地发挥信息化的作用,必须提高信息系统的数据质量。显见,研究信息化建设中的数据清理问题具有理论和应用价值。针对这一课题,论文包括如下几个方面的研究工作: 论述了数据清理研究的重要性和紧迫性,分析了数据清理的研究现状,指出了目前数据清理研究中所存在的问题。 从数据质量的三个重要因素出发,研究了单数据源中数据清理的关键技术,包括:相似重复记录清理、不完整数据清理、错误数据清理。 对于相似重复记录的清理,给出了一种综合的清理方法。为了提高该方法的检测精度和检测效率,从两个方面对该方法的关键环节进行了改进:第一个改进是在相似重复记录检测中,根据具体的业务系统,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度;第二个改进是提出了一种提高相似重复记录检测效率的方法,该方法采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率。此外,构造了合适的实验环境,做了大量的检测实验,翔实的实验结果验证了长度过滤方法的科学性及有效性。 对于不完整数据的清理,提出了一种清理方案,该方案首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用合适的方法来处理该记录的丢失值,从而完成数据源中不完整数据的清理。 针对数据源中出现的错误数据,研究了如何采用孤立点检测和业务规则这两种方法来检测这些错误数据,多种检测方法大大提高了错误数据清理的综合效果。 在研究了单数据源数据清理的基础上,又研究了多数据源集成中的数据清理问题,主要内容有:研究了多数据源集成中数据标准化的方法;结合相似重复记录清理的研究,给出了一种相似重复实体检测方法,有效地解决了多数据源集成中相似重复实体的清理问题;提出了一种交互式数据迁移方法,该方法把数据迁移和数据清理紧密地结合在一起,不仅可灵活、准确地完成多数据源集成中的数据迁移,还可保证数据迁移后新系统的数据质量。 在结构化数据清理研究的基础上,针对半结构化数据 XML 在数据清理中的重要性,提出了一种有效的 XML 相似重复数据清理方法,并给出了一种优化的基于树编辑
其他文献
大学生是我国网民的重要组成部分,为了充分利用好这一优势,每一所高校都基本建立了完善的校园网络体系,希望借助网络来加强对大学生的教育和管理。论文以杭州下沙五所高校为
20世纪90年代以来,团队已成为管理理论研究的热点,客观地说,团队正在经营管理方面发挥着80年代流行的组织文化所无法具备的功能和无法比拟的作用,并把组织理论朝纵深方向推进
<正>一、指导观察、引发兴趣观察,是学生认识事物的起点,也是学习作文的第一步。我们在教给学生观察方法的同时,要注意引发学生的观察兴趣。如春天带着孩子走出校园,去寻找春
<正> 近来读到江苏文艺出版社新出版的四卷本的《毕飞宇文集》——《这一半×轮子是圆的×冒失的脚印》和《黑衣裳》。这套几乎收集了毕飞宇从事创作以来的主要作品的文集,不
无线市话(Personal Handyphone System)简称PHS。它采用微蜂窝技术,将用户端(即便携电话手机)以无线的方式接入本地电话网,使传统意义上的固定电话不再固定在某个位置,可在无
近年来我国证券市场规模日益扩大,股票已经成为重要的投资方式。但从整体看,上市公司经营业绩并不理想。因此使用在客观、公允基础上披露的上市公司财务报告数据,构造合理的
抓斗是起重机装卸散料的一种取物装置,其闭合绳平衡装置的设计和所处的位置,对抓斗闭合绳的更换快捷性尤为重要。通过对下承梁结构的改造,增加闭合绳的平衡装置,减少了抓斗闭
<正> 痤疮疤痕红印 痤疮,美容师俗称面疱,其生长的病因极为复杂,在此不再详述。在面疱生成发展由红、肿至化脓过程中,由于擅自挤压而引起感染,造成溃烂而形成凹陷;有的形成局
期刊
<正>小学阶段处于人生发展的关键时期,并且数学是一切科学的基础,问题是数学的心脏,这使得在小学阶段通过数学学科的教育培养小学生的数学问题意识具有了可能性。培养小学生
科学技术的进步和各国政府的支持使世界农业在最近几十年有了长足的发展,世界农产品贸易额一直呈上升趋势。但是世界农产品贸易额的增长速度是缓慢的,并且是不均衡的。虽然经