多变量决策树在高维代价敏感数据挖掘中的研究与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:sunlang110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和数据挖掘技术的发展,数据仓库中的数据变得越来越复杂。数掘挖掘技术己经成为计算机界新的研究热点之一,被应用在许多领域来处理各种数掘。在现实应用中,存在很多高维代价敏感数据。代价敏感数据挖掘研究在国外发展很快,是数据挖掘领域的一个热点问题,己有一些成型的算法和模型,而在国内发展相对滞后。因此,现阶段研究代价敏感数据挖掘对数据挖掘技术有着一定的现实意义。而数据的维度是影响各种挖掘算法性能的一个重要的因素,高维数据在很多代价敏感问题中也很常见,所以研究高维代价敏感数据挖掘是非常必要的。本文的研究工作就主要围绕高维代价敏感数据挖掘问题展开。 对高维数据的处理,也就是降维,一直都是数据挖掘研究中的一个热点。降维是通过将数据点映设到更低维的空间上以寻求数据的紧凑表示的一种技术,这种低维空间的紧凑表示将有利于对数据的进一步处理。一般的降维处理将数据集的各个属性看成是彼此独立的,对每个属性进行评价,从中找出那些对数据挖掘作用大的属性,去掉那些作用不大的属性,从而实现降维:但是,却忽略了属性之间的相关性。 本文围绕着高维代价敏感数据的数据挖掘问题,做了一些研究工作,取得了一些有特色的成果和创新: 1.本文将统计分析中的主成分分析用到降维分析中,研究了基于主成分分析的多变量决策树模型。这种方法不仅可以降低数据集的维度,而且考虑了成分之间的相关性,在降维的同时,有效的保留了属性之间的相关性,使降维处理后的数据更有效。 2.区别于普通的数据挖掘算法,本文在挖掘过程中,引入了代价函数,考虑了误分类代价,实现了一个基于多变量决策树的代价敏感数据挖掘算法PCAmetacost。 3.完成了一个基于PCAmetacost算法的邮政储蓄数据挖掘算法子系统的设计和实现,并在此基础上,选用了实际数据,对算法做了验证。 可以验证,经过降维处理和引入代价函数后的算法比一般算法在性能上有了一定的提高,特别是对于误分代价高的类的分类正确性有较大提高。本文另外选取UCI数据集中的三个数据集对算法进行了进一步验证。实验证明,基于主成分分析的代价敏感算法和一般的代价敏感算法相比在性能上有了一定的提高。
其他文献
自2015年新一轮电改浪潮中,竞价+平价上网模式对于风电行业的冲击,使得风电企业要谨慎核算风电生产成本.通过加强备件采购管理工作,提高备件采购管理专业人员水平,加快推进进
9月5日,国家民委“抗震救灾民族好新闻”在京颁奖,国务院新闻办、人民日报、光明日报等20多家新闻单位的代表及获奖者参加了颁奖仪式。国家民委副主任丹珠昂奔、国务院新闻办
Peerto Peer(P2P)网络的研究和应用是当前的热点,将其应用到我国当前正在实施的校校通网络工程中,会产生重大的现实意义。而实现校校通P2P系统关键在于高效的发现机制,它直接影
随着我国教育工作的不断发展,推进素质教育已经成为了基础教育阶段的主要教学工作,如何在教学阶段提升学生的综合素质是我们在小学教育阶段的主要教学问题.当前我们针对小学
随着互联网的普及和延伸,软件系统的开发模式已经从过去的本地系统集成发展到更为复杂的多层分布式系统,由此诞生了Web Services.它采用了消息的、松散耦合的Web技术,集成并
对于每一个工程来说,工程造价管理是工程建设的重要任务之一.想要将工程造价进行精细化管理并在各行各业中应用,就要对其技术进行提升.通过相应的技术保障来使工程造价精细化
城市是人的城市,也是无数绿植的城市.如果我们不想生活在一篇毫无生气的钢铁灰色中,就一定要做好绿植的养护管理.城市的绿化作为衡量现代城市风貌的关键要素,其养护管理水平
对于一个企业来说,设备的良好十分重要.它决定了企业的生产能力,产品质量以及产品成本都有着重要的影响,也很大程度上限制了企业的继续发展,现代社会设备的管理问题已经得到
随着互联网的发展和信息资源的丰富,万维网发展成为一个丰富的知识宝库.传统的基于关键字的检索策略在一定程度上已经不能满足人们的需求.语义网提出利用机器可理解的元数据
该文主要研究径基函数(Radial Basis Function,RBF)神经网络模式分类方法以解决机器嗅觉系统中的学习问题.该文针对标准RBF网络存在的不足,提出了由—个单层RBF神经网络和一