论文部分内容阅读
近年来,越来越多的应用环境中产生了数据流,这类数据都是连续的、有序的、快速变化的、海量的。如何从数据流中挖掘出有用信息引起了广泛的关注。聚类是一种重要的数据挖掘方法,将其应用到数据流中也是一项重要的研究。传统的聚类方法无法在数据流中直接应用,需要研究能够适应数据流变化的聚类算法。在对数据流进行挖掘的同时,也要考虑如何对这样的海量数据进行存储。另外,传统的数据库管理系统在数据流环境中也不再适用,需要研究新的数据流管理系统。目前对数据流管理系统的研究主要集中在如何进行连续查询,而很少有在系统中融合数据挖掘的方法。
本文研究了数据挖掘的常用方法和目前已有的数据流聚类技术,给出了一种移动网格数据流聚类方法(MGDDS)。该算法改进了现有一些聚类算法的不足,克服了已有算法对非球形聚类效果不佳的问题,可以处理任意形状的类,并且算法的性能较好,聚类精度较高。另外对传统的数据库管理系统(DBMS)进行分析,指出其应用到数据流中的局限性,分析了数据流管理系统(DSMS)在数据流环境下的特点,及其与DBMS的主要区别。借鉴已经成型的几种数据流管理系统,融合数据流挖掘模块,给出了一个改进的数据流管理系统的框架结构。
最后,本文针对一个实际的数据流应用领域,对算法的性能进行了分析。给出了算法在网络入侵检测领域中的一个实现流程,并用常用于网络入侵检测的KDDCup99数据集进行实验,得到了较好的效果,验证了算法的性能。