论文部分内容阅读
我国目前正在大力推广信息技术,实施各行各业的信息化工程,如代表制造业信息化潮流的 ERP(Enterprise Resource Planning,企业资源计划)系统,电子政务系统,医疗保险信息系统,以及其它各类形式的信息系统。随着信息化的进展,企业积累了大量的电子数据,这些数据非常珍贵。用户录入错误、企业合并以及企业环境随着时间的推移而改变等因素,都会影响数据的质量。为了更好地发挥信息化的作用,必须提高信息系统的数据质量。显见,研究信息化建设中的数据清理问题具有理论和应用价值。针对这一课题,论文包括如下几个方面的研究工作: 论述了数据清理研究的重要性和紧迫性,分析了数据清理的研究现状,指出了目前数据清理研究中所存在的问题。 从数据质量的三个重要因素出发,研究了单数据源中数据清理的关键技术,包括:相似重复记录清理、不完整数据清理、错误数据清理。 对于相似重复记录的清理,给出了一种综合的清理方法。为了提高该方法的检测精度和检测效率,从两个方面对该方法的关键环节进行了改进:第一个改进是在相似重复记录检测中,根据具体的业务系统,采用等级法为记录各字段指定合适的权重,从而提高了相似重复记录的检测精度;第二个改进是提出了一种提高相似重复记录检测效率的方法,该方法采用长度过滤方法优化相似检测算法,避免了不必要的编辑距离计算,从而提高了相似重复记录的检测效率。此外,构造了合适的实验环境,做了大量的检测实验,翔实的实验结果验证了长度过滤方法的科学性及有效性。 对于不完整数据的清理,提出了一种清理方案,该方案首先分析数据的可用性;然后删除不可用记录;最后,对可用记录通过选用合适的方法来处理该记录的丢失值,从而完成数据源中不完整数据的清理。 针对数据源中出现的错误数据,研究了如何采用孤立点检测和业务规则这两种方法来检测这些错误数据,多种检测方法大大提高了错误数据清理的综合效果。 在研究了单数据源数据清理的基础上,又研究了多数据源集成中的数据清理问题,主要内容有:研究了多数据源集成中数据标准化的方法;结合相似重复记录清理的研究,给出了一种相似重复实体检测方法,有效地解决了多数据源集成中相似重复实体的清理问题;提出了一种交互式数据迁移方法,该方法把数据迁移和数据清理紧密地结合在一起,不仅可灵活、准确地完成多数据源集成中的数据迁移,还可保证数据迁移后新系统的数据质量。 在结构化数据清理研究的基础上,针对半结构化数据 XML 在数据清理中的重要性,提出了一种有效的 XML 相似重复数据清理方法,并给出了一种优化的基于树编辑