基于多分类器架构的数据流中概念漂移的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:X2000N
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,数据流在股票交易、网络流量监控、网络安全监控、电信通信记录、传感器网络等许多领域有着广泛的应用。简单地说,数据流是无限的、连续的、快速的、实时的数据集合。由于这些特点,传统的数据挖掘技术无法用于数据流的处理。这就为数据流挖掘技术的发展带来了机遇。 数据流中概念漂移的检测是当前数据挖掘领域的重要研究分支,近年来得到广泛的关注。所谓概念漂移是指由于潜在信息的变化而导致目标概念发生根本性变化的现象。当前概念漂移方法还存在需要解决的问题有: (1)当前大多数概念漂移检测模型或算法是基于批处理方式的,不能够适应数据流中概念在短时间内的快速变化,一些小的快速变化的概念可能会被大的成块的概念所“淹没”。 (2)批处理的方式一般需要大容量的训练数据,因此在只有少量训练样本的数据流情况时,可能会导致算法的精确度下降。 (3)目前已经出现了增量式多分类器算法,但是它们在技术上仍然不成熟,方法和实验手段上仍然需要继续研究和探讨。 本文针对这些问题,提出了一种称为ICEA(Incremental Classification Ensemble Algorithm)的数据流挖掘算法,并从理论上给出了分析结果。它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘。实验结果表明,对比已有的算法,ICEA算法在处理数据流的快速概念漂移上表现出更高的精确度和较好的时间效率。
其他文献
在基于对等网络的流媒体数据技术研究中,高效稳定的媒体数据传输管理是一个重点研究内容。目前基于对等网络的直播技术已经日趋成熟,但由于点播平台固有的高度交互性特点使其
随着并行技术和并行语言的发展,处理并行语言的并行编译技术,将串行程序转换成并行程序的自动并行编译技术正在深入研究之中。语法分析是编译系统设计最重要的内容之一,而扩增式
在当前的网络信息时代,数据信息不仅庞大而且呈多样化。为了充分利用Web上的数据信息,信息集成已经成为一种必然的要求。XML作为兼具可扩展性及灵活性的通用数据传输格式,越来越
光学字符识别(OCR)是指将纸上的文字转化为计算机所能处理的形式(如ASCII码)的过程。手写体字符识别是光学字符识别的一个分支,手写体字符识别在邮政信件分拣、银行票据的自
虚拟现实技术(VR)一直是信息领域研究、开发和应用的热点,它将通信技术、信息技术、计算机硬件和软件技术等前沿科技交叉在一起,提供给使用者一种身临其境的感觉,即沉浸感。实现
高级量测体系(AMI)是智能电网的一个重要组成部分,近年来得到了越来越多的研究和应用,是当前的一个研究热点。通过AMI,电力公司不仅可以收集、存储、分析和提供来自智能电表等设备的相关数据,而且可以向智能电表等设备发送控制信息,提供远端设备的固件升级服务,实现了电力公司和用户之间的双向通信和互动。本文重点研究了AMI数据转发机制和应用层安全机制。在数据转发机制方面,提出了一种以IPv6的引入与增强型
目前国内电信运营支撑系统中的信息共享不充分以及数据备份冗余,电信管理论坛提出的共享信息模型的方法,通过信息共享的方式集成现有系统,打破信息孤岛。电信企业的数据模型有很
网格系统是将地理位置分布、系统异构、动态变化的各种资源,通过互联网连接起来,使用标准的、开放的和通用的协议和接口,向用户提供非平凡服务的非集中控制环境。网格计算技术已
近年来,随着无线局域网(Wireless Local Area Network,WLAN)的高速发展,IEEE802.11标准不断普及。IEEE 802.11定义了两种信道访问机制:分布协调机制(Distrjbuted Coordinated Func
北京2008奥运会是中国历史上第一次主办的奥运会,届时来自世界各国的有着不同文化背景、说不同语言的各类人员将云集北京。中国作为2008奥运会的主办国家,北京作为2008奥运会的