论文部分内容阅读
近几年,数据流在股票交易、网络流量监控、网络安全监控、电信通信记录、传感器网络等许多领域有着广泛的应用。简单地说,数据流是无限的、连续的、快速的、实时的数据集合。由于这些特点,传统的数据挖掘技术无法用于数据流的处理。这就为数据流挖掘技术的发展带来了机遇。
数据流中概念漂移的检测是当前数据挖掘领域的重要研究分支,近年来得到广泛的关注。所谓概念漂移是指由于潜在信息的变化而导致目标概念发生根本性变化的现象。当前概念漂移方法还存在需要解决的问题有:
(1)当前大多数概念漂移检测模型或算法是基于批处理方式的,不能够适应数据流中概念在短时间内的快速变化,一些小的快速变化的概念可能会被大的成块的概念所“淹没”。
(2)批处理的方式一般需要大容量的训练数据,因此在只有少量训练样本的数据流情况时,可能会导致算法的精确度下降。
(3)目前已经出现了增量式多分类器算法,但是它们在技术上仍然不成熟,方法和实验手段上仍然需要继续研究和探讨。
本文针对这些问题,提出了一种称为ICEA(Incremental Classification Ensemble Algorithm)的数据流挖掘算法,并从理论上给出了分析结果。它利用集成分类器综合技术,实现了数据流中概念漂移的增量式检测和挖掘。实验结果表明,对比已有的算法,ICEA算法在处理数据流的快速概念漂移上表现出更高的精确度和较好的时间效率。