数据挖掘中噪声发现算法的研究

来源 :华南农业大学 | 被引量 : 0次 | 上传用户:huanghuimin1224
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
决策树(decision tree)学习是以实例为基础的归纳学习算法,优点是在学习过程中不需要了解背景知识和可以产生容易理解的规则.在选择分类属性时,经常采用基于熵的信息增益(gain)作为启发信息,它也反映了各属性的重要程度.该文提出一种基于增益的得分方法SBOG(Scoring Based on Gain).通过计算每个训练样本的得分比,确定训练集中得分比的均值和标准差,进而确定一个类的得分比置信下限.得分比小于这个下限的训练样本就被认为是训练集中的噪声样本.在构造决策树之前,先用SBOG去除训练集中的噪声数据,再用经过这种预处理的训练集生成决策树.由于减少了噪声的影响,因此在保持分类精度的同时明显降低了树尺寸.该文提出的SBOG从本质上来说属于基于距离的方法,但它是针对多维分类数据的,且对分类数目没有限制.SBOG的计算复杂度为O(s*n),其中s为数据集中元组个数,n为属性个数.由于得分比是按照数据集中数据对象的分类和它的属性取值确定的,反映的是数据对象本身的特性.得分比均值和标准差反映的是每一类数据子集的特征,而不是人为指定的.这样就克服了以上五种噪声检测算法的一些缺点.对12个UCI数据集的实验结果表明,在去除了一定比例的噪声样本之后,决策树的分类精度基本保持不变,但决策树的尺寸明显改善,仅为原来树尺寸的87%.并且数据集总体的模糊度减小了约5%,所以SBOG对于去除噪声是有效的.
其他文献
该论文系统地比较对比了票价水平与收入水平,国内外航空公司定价理论的发展状况,从旅客的需求、航空公司的收益和社会福利最大化三个不同的角度,深入探讨了机票产品的结构特
10多年来,经费需求与供给之间的矛盾一直是制约我国高等教育发展的主要因素.在实际高等教育成本补偿和个人分担政策的前提下,影响受教育者个人教育投资决策的最主要的因素,就
本文结合中能公司燃料管理信息系统的开发和建设,在对系统功能需求和数据需求进行调研的基础上,提出了系统的设计方案,对数据进行了分类,采用了基于数据平台的分步实施的开发
全文共分为七部分:前言部分介绍整体保险行业的信息化现状,再保险领域信息化的落后状况及其客观原因,指出迫于业务形态的变化和市场竞争的加剧,再保险的信息化已经迫在眉睫,
在现代报业激烈的市场竞争中,报纸如何将现代传媒与传统媒体有机结合、发展综合经济,作者提出了挑战性的思路。 In the fierce market competition of modern newspapers, h
上市公司管理者过度自信现象非常普遍,这不仅受管理者自身因素的影响,也受到公司环境、公司机制等多种因素的影响,他们过度自信的行为特征会对公司财务决策产生重要影响。本文在对过度自信和财务决策相关理论分析的基础上,以2006-2008年在上海和深圳证券交易所挂牌交易的河北省上市公司为样本,对管理者过度自信与财务决策的关系进行了实证研究。首先,阐述了本文的研究背景、研究意义以及应用前景,在国内外文献回顾的
军工企业改制使军品定价管理面临着从计划经济向市场经济过渡中的矛盾和冲突,军品统筹采办工作中三大要素(计划、价格和质量)的经济合理性成了军品定价管理的关注点,而以往的
拥有中国收视率调查行业85%以上市场份额的权威收视率调研机构——CSM媒介研究为不断满足市场与客户日益变化的需求,全新推出InfoSysEXEC手机在线服务。InfoSysEXEC手机在线
金融资产的价格变动与金融资产的交易量是研究金融市场常选用的数据,它们被认为与信息有着密切的关系,而价格变动与交易量之间究竟有什么样的关系则仍处于探讨中.准确地描述
对从中间偃麦草与普通小麦品种烟农15杂交后代(BC3F6)中选育的双体异附加系山农Line15的形态学、白粉病抗性、细胞学、基因组荧光原位杂交(G ISH)及R A PD进行鉴定分析。结果