基于聚类和孤立点检测的数据预处理方法的研究

被引量 : 20次 | 上传用户：wffg0907

【摘要】

：

随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这

【作者】

：

苗润华

【发表日期】

：

2012年01期

【关键词】

：

聚类孤立点检测数据预处理数据挖掘数据清理噪声处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息化服务的不断发展,企业都积累了前所未有的海量数据,如何从这些海量数据中挖掘出自己需要的信息并应用到自身的发展决策中成为了一个迫切需要研究的问题.面对这样的挑战,数据挖掘技术应运而生.但是,由于数据在采集或者录入过程中的一些错误以及一些其它的原因,导致数据中难免会存在一些问题.这些问题在很大程度上影响着数据挖掘任务的成败.因此,使用数据预处理技术改善数据质量显得非常重要.而聚类和孤立点检测作为数据挖掘领域的两个非常热门的研究方向,也受到人们越来越多的关注.因此,本文从数据预处理的任务出发,分析聚类和孤立点检测方法与数据预处理需求之间的关系,并研究相应的数据预处理方法有重要的理论意义和实用价值.本文首先对基于聚类和孤立点检测的数据预处理进行了简单的概述.然后介绍了面向数据挖掘的数据预处理系统的整体架构,该系统是根据新的分类方式将数据预处理任务分成六个部分来实现的.紧接着描述了系统的启动,以及该系统的每个功能模块的任务.其次,本文分析了如何用聚类方法实现预处理系统中的噪声处理功能.并详细介绍了聚类的相关概念、聚类算法的分类及其要求,同时将两个经典的聚类算法κ-均值算法和最远优先算法用于系统中的噪声识别.进而通过对这两个经典算法的分析与研究,用最远优先策略选择κ-均值算法的初始聚类中心,提出了一种改进的用于噪声处理的κ-均值算法.最后实验表明改进的算法在处理低维数据时,聚类效果要优于原来的κ-均值算法,而且聚类效率也有了一定的提高,平均为原来的κ-均值算法的2倍.最后,本文分析了实例检测中的孤立点检测的实现方法,并对孤立点检测的相关概念以及孤立点检测算法的分类和评价方式进行了详细的介绍.同时在系统中设计并实现了两种孤立点检测算法基于简单的剪枝策略的孤立点检测算法和基于一类支持向量机的孤立点检测算法,并对前者进行了改进.最后通过实验验证了改进后的算法在处理低维数据时不但维持了原算法较高的正确率,而且效率平均提高为原算法的2.3倍.

其他文献

德州市2010年洪涝灾害调研

通过对德州市有关县（市）的调研,总结了2010年汛情灾情主要特点及应对措施。对防汛排涝意识不强、缺乏针对性预案,水利建设投入不足,干支流河道淤积,工程病险老化,排水体系不畅,

期刊

德州市六四雨型防汛预案

寻因觅胜开发诗路

<正> 浙东唐诗之路(以下简称为“诗路”),是一个时空互为印证的历史文化概念。这里说的浙东,指浦阳江以东,括苍山脉以北,东海以西这一区域,会稽、四明、天台以及大盘四条山脉

会议

高校大学生手机媒介素养调查

<正>当前,在新媒体迅速发展的社会情况下,手机作为新媒体的代表已经深入大学生的生活,成为大学生生活和学习中不可缺少的工具,给大学生的学习和生活带来了很多积极影响。然而

期刊

手机媒介素养高校大学生媒介素养教育

世界一流大学五大评价指标体系的比较、改进及其启示

世界一流大学是一个历时性概念,也是一个共时性概念。回应世界一流大学的标准是建设一流大学的根本问题,建设世界一流大学既有对标国外先进大学的涵义,更体现出奠定我国大学

期刊

世界一流大学评价指标体系大学评价质性指标大学质量“双一流”建设

建立专业学院IC S留学生管理体系服务研究型大学“双一流”建设——以天津大学化工学院为例

随着"双一流"建设目标和"一带一路"倡议的提出,研究型大学非汉语专业学院招收和培养外国留学生的需求日益迫切,以中国本土学生为对象的教学管理体系严重制约了留学生规模。本

期刊

研究型大学专业学院留学生招生培养

脑桥中央髓鞘溶解症合并脑桥外髓鞘溶解症的磁共振成像动态变化

目的探讨脑桥中央髓鞘溶解症合并脑桥外髓鞘溶解症的磁共振成像(MRI)动态变化特点。方法报道3例患者纠正低钠血症后,先后出现脑桥外髓鞘溶解症和脑桥中央髓鞘溶解症,对脑桥外

期刊

脑桥外髓鞘溶解症脑桥髓鞘溶解症磁共振成像

在等离子体双极切割系统下采用两种手术方法治疗前列腺增生的疗效对比

目的 :探讨在等离子体双极切割系统下采用两种手术方法治疗前列腺增生的临床效果。方法 :选取近年来我院收治的120例前列腺增生患者作为研究对象。随机将这些患者分为电切术

期刊

等离子体双极切割系统前列腺剜除术前列腺电切术前列腺增生疗效

基于多通道卷积神经网络的中文微博情感分析

近年来,深度学习在情感分析任务中的应用得到了越来越多的关注.针对以文本词向量作为输入的卷积神经网络无法充分利用情感分析任务中特有的情感特征信息,以及难以有效表示每

期刊

情感分析深度学习卷积神经网络多通道自然语言处理

把职业技能竞赛引入护理学实训教学的探讨

目的探讨把护理职业技能竞赛引入中职护理实训教学所起的作用。方法对中职护理专业学生采用竞赛教学法进行教学,让学生分别担任竞赛者(护士)、病人、评委,教师担任总评委。结

期刊

职业技能竞赛护理学实训教学

中国国家司法考试制度的困境与出路

我国现行的国家统一司法考试制度关系到我国法学教育的教育模式以及法律职业人才的培养，这就使得司法考试制度成为关系我国法治建设的重要内容和环节。现行的司法考试制度有它

学位

国家司法考试现状困境出路

基于聚类和孤立点检测的数据预处理方法的研究

其他学术论文