论文部分内容阅读
                            
                            
                                随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这样的挑战,数据挖掘技术应运而生.但是,由于数据在采集或者录入过程中的一些错误以及一些其它的原因,导致数据中难免会存在一些问题.这些问题在很大程度上影响着数据挖掘任务的成败.因此,使用数据预处理技术改善数据质量显得非常重要.而聚类和孤立点检测作为数据挖掘领域的两个非常热门的研究方向,也受到人们越来越多的关注.因此,本文从数据预处理的任务出发,分析聚类和孤立点检测方法与数据预处理需求之间的关系,并研究相应的数据预处理方法有重要的理论意义和实用价值.本文首先对基于聚类和孤立点检测的数据预处理进行了简单的概述.然后介绍了面向数据挖掘的数据预处理系统的整体架构,该系统是根据新的分类方式将数据预处理任务分成六个部分来实现的.紧接着描述了系统的启动,以及该系统的每个功能模块的任务.其次,本文分析了如何用聚类方法实现预处理系统中的噪声处理功能.并详细介绍了聚类的相关概念、聚类算法的分类及其要求,同时将两个经典的聚类算法κ-均值算法和最远优先算法用于系统中的噪声识别.进而通过对这两个经典算法的分析与研究,用最远优先策略选择κ-均值算法的初始聚类中心,提出了一种改进的用于噪声处理的κ-均值算法.最后实验表明改进的算法在处理低维数据时,聚类效果要优于原来的κ-均值算法,而且聚类效率也有了一定的提高,平均为原来的κ-均值算法的2倍.最后,本文分析了实例检测中的孤立点检测的实现方法,并对孤立点检测的相关概念以及孤立点检测算法的分类和评价方式进行了详细的介绍.同时在系统中设计并实现了两种孤立点检测算法基于简单的剪枝策略的孤立点检测算法和基于一类支持向量机的孤立点检测算法,并对前者进行了改进.最后通过实验验证了改进后的算法在处理低维数据时不但维持了原算法较高的正确率,而且效率平均提高为原算法的2.3倍.