基于聚类和孤立点检测的数据预处理方法的研究

被引量 : 20次 | 上传用户:wffg0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这样的挑战,数据挖掘技术应运而生.但是,由于数据在采集或者录入过程中的一些错误以及一些其它的原因,导致数据中难免会存在一些问题.这些问题在很大程度上影响着数据挖掘任务的成败.因此,使用数据预处理技术改善数据质量显得非常重要.而聚类和孤立点检测作为数据挖掘领域的两个非常热门的研究方向,也受到人们越来越多的关注.因此,本文从数据预处理的任务出发,分析聚类和孤立点检测方法与数据预处理需求之间的关系,并研究相应的数据预处理方法有重要的理论意义和实用价值.本文首先对基于聚类和孤立点检测的数据预处理进行了简单的概述.然后介绍了面向数据挖掘的数据预处理系统的整体架构,该系统是根据新的分类方式将数据预处理任务分成六个部分来实现的.紧接着描述了系统的启动,以及该系统的每个功能模块的任务.其次,本文分析了如何用聚类方法实现预处理系统中的噪声处理功能.并详细介绍了聚类的相关概念、聚类算法的分类及其要求,同时将两个经典的聚类算法κ-均值算法和最远优先算法用于系统中的噪声识别.进而通过对这两个经典算法的分析与研究,用最远优先策略选择κ-均值算法的初始聚类中心,提出了一种改进的用于噪声处理的κ-均值算法.最后实验表明改进的算法在处理低维数据时,聚类效果要优于原来的κ-均值算法,而且聚类效率也有了一定的提高,平均为原来的κ-均值算法的2倍.最后,本文分析了实例检测中的孤立点检测的实现方法,并对孤立点检测的相关概念以及孤立点检测算法的分类和评价方式进行了详细的介绍.同时在系统中设计并实现了两种孤立点检测算法基于简单的剪枝策略的孤立点检测算法和基于一类支持向量机的孤立点检测算法,并对前者进行了改进.最后通过实验验证了改进后的算法在处理低维数据时不但维持了原算法较高的正确率,而且效率平均提高为原算法的2.3倍.
其他文献
通过对德州市有关县(市)的调研,总结了2010年汛情灾情主要特点及应对措施。对防汛排涝意识不强、缺乏针对性预案,水利建设投入不足,干支流河道淤积,工程病险老化,排水体系不畅,
<正> 浙东唐诗之路(以下简称为“诗路”),是一个时空互为印证的历史文化概念。这里说的浙东,指浦阳江以东,括苍山脉以北,东海以西这一区域,会稽、四明、天台以及大盘四条山脉
会议
<正>当前,在新媒体迅速发展的社会情况下,手机作为新媒体的代表已经深入大学生的生活,成为大学生生活和学习中不可缺少的工具,给大学生的学习和生活带来了很多积极影响。然而
世界一流大学是一个历时性概念,也是一个共时性概念。回应世界一流大学的标准是建设一流大学的根本问题,建设世界一流大学既有对标国外先进大学的涵义,更体现出奠定我国大学
随着"双一流"建设目标和"一带一路"倡议的提出,研究型大学非汉语专业学院招收和培养外国留学生的需求日益迫切,以中国本土学生为对象的教学管理体系严重制约了留学生规模。本
目的探讨脑桥中央髓鞘溶解症合并脑桥外髓鞘溶解症的磁共振成像(MRI)动态变化特点。方法报道3例患者纠正低钠血症后,先后出现脑桥外髓鞘溶解症和脑桥中央髓鞘溶解症,对脑桥外
目的 :探讨在等离子体双极切割系统下采用两种手术方法治疗前列腺增生的临床效果。方法 :选取近年来我院收治的120例前列腺增生患者作为研究对象。随机将这些患者分为电切术
近年来,深度学习在情感分析任务中的应用得到了越来越多的关注.针对以文本词向量作为输入的卷积神经网络无法充分利用情感分析任务中特有的情感特征信息,以及难以有效表示每
目的探讨把护理职业技能竞赛引入中职护理实训教学所起的作用。方法对中职护理专业学生采用竞赛教学法进行教学,让学生分别担任竞赛者(护士)、病人、评委,教师担任总评委。结
我国现行的国家统一司法考试制度关系到我国法学教育的教育模式以及法律职业人才的培养,这就使得司法考试制度成为关系我国法治建设的重要内容和环节。现行的司法考试制度有它