数据流中代价敏感分类算法的研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:zxwlxy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,特别是互联网技术的普及,每天产生的数据呈现爆炸式增长,这些数据基本都具有:高速到达、数据量大、实时性要求高等特点,是典型的数据流。如今,数据流已经出现在各个领域,例如银行中用户信用评级、医疗诊断、网络入侵检测等,针对这类数据的挖掘一直是研究的热点。另一方面,代价敏感分类算法,在分类过程中考虑了误分类代价,构建的分类模型追求代价的最小化,更加贴近实际应用场景,因而获得了广泛关注。然而,在数据流场景下,传统的代价敏感分类算法由于需要多次扫描样本数据,将不再适用。由此,本文对数据流分类和代价敏感分类这一交叉领域进行研究。通过将大众定理与GDT算法结合起来,提出了数据流中的代价敏感分类算法CsGDT;进一步,为了解决代价敏感分类过程中,只考虑误分类代价指标,而导致分类准确率过低的问题,本文对大众定理进行改进,并且在此基础上提出能兼顾误分类代价和准确率的soft-CsGDT算法。本文最后,使用合成数据和KDD CUP’99提供的现实数据进行了一系列实验,结果表明:CsGDT算法能够适应数据流场景,构造的分类模型能够实现误分类代价指标的最小化;另一方面,soft-CsGDT算法能够在保证与CsGDT算法逼近的误分类代价指标的情况下,显著地改善最终分类模型的准确率这一指标。
其他文献
该论文参考当前国际上关于网格信息服务的最新研究成果,以西安交通大学校园网为实验环境,设计了一个校园级网格信息服务系统C-GIS,并且主要基于LDAP技术给出了C-GIS原型系统
该文所讨论的内容有:☆ 研究了领域层的持久类与关系型数据库之间的映射策略.领域层的类与关系数据库的表的映射不仅仅包含了数据的映射,还包含了类之间关联的映射.我们根据
公钥密码思想被第一次提出后,新颖的方法和思路在公钥密码思路的基础上得到了发展和提高。无论是国外还是国内,也相应地、不断地提出了很多新的关于公钥密码体制的实现模型,
该文首先简要地介绍了搜索引擎的发展状况、工作原理、分类,总结了当前的搜索引擎存在的问题,展望了搜索引擎发展的趋势,分析了主题搜索引擎出现的必然性.接着,论文较为详细
原来的一些性能分析工具主要是为集群规模的并行计算环境开发的,已经不适应于大规模的分布式并行计算环境,因此该文从分布式的角度出发,利用CORBA为分布式计算提供的强大支撑
论文详细研究了GPRS网络的体系结构;协议;QoS机制以及保证QoS前提下GPRS网络协议的应用.论文首先从无线移动通讯入手,介绍了无线网络体系结构及相关协议,进而分析了无线网络
该论文通过对首都机场自动广播系统的现状分析,总结了以往系统的可取之处和不足之处,并结合对乌鲁木齐机场自动广播应用需求的分析,提出了通用数字自动广播系统的功能需求与
首先,文中论述了三种典型的分布式VoD服务器(层次型DVS、网状DVS和基于集群服务器DVS)的节目存储和轮换策略.其次,经对中山大学软件所VoD系统的用户点播数据进行细致分析,发
该文所介绍的实例CRP是一个适合中小学校园资源管理的一个平台,它包括了学籍管理、成绩管理、排课管理等各个管理子系统,为校园办公和资源管理提供信息化解决方案.该文介绍了
随着对外开放的不断深入,我国英语学习者的数量急剧增加,对英语学习者的文章进行相关分析研究显得日趋重要。英文作文智能评改系统综合利用自然语言处理、统计学、语料库语言