论文部分内容阅读
数据挖掘,是从大量原始数据中提取知识的过程.由于其在现实生活中的广泛应用,数据挖掘领域在研究方面已有很大发展.然而,在一种新的数据环境中,即数据流环境中进行挖掘是一项具有挑战性的工作.近年来涌现的许多应用促进了数据流模型的提出,这些应用包括电子商务、通讯数据管理、股票数据分析等.这些应用中产生的数据源源不断地到来,因此只能按顺序进行处理,而且数据量是无穷的.传统的数据挖掘算法只能处理静态数据库,因此对这种大量的、无穷无尽的数据流是无能为力的.该文提出了一系列数据流挖掘算法.这些算法只扫描一遍数据,并且维护一个最新的模型,处理每条数据的时间较短且基本恒定,所需内存量也是固定的.重点研究了三种知识类型的挖掘,包括聚类、频繁模式和分类模式的挖掘,提出了三个算法来解决在数据流环境中挖掘这些知识的问题.首先,设计并实现了一个基于密集单元检测的单遍扫描、增量更新的数据流聚类算法.这种方法在时间和空间上都是高效的,并且易于给出在线应答和离线分析.该算法根据局部性原理从局部密集单元中发现密集单元,然后在密集单元上进行聚类,聚类结果能及时进行更新.此外,可以发现任意形状的聚类并可以消除噪声.此外,提出了一种挖掘数值型数据流中最大频繁模式的有效方法.采用基于距离的方法将数据离散化,并重新定义了最大频繁模式的概念,并在此基础上设计了一种新的算法.该算法用聚类的方法产生频繁项,通过增量更新及时快速地输出最大频繁模式.最后,提出了用加权的组合分类器方法来构造高质量、及时更新的分类模型.在连续到来的数据流的多个数据块上训练出多个分类器,根据分类器的建立时间和分类精度赋予它们不同的权重.这些分类器组合在一起进行预测,可以比单分类器获得更高的精度.在真实数据集和生成数据集上做了大量的实验.实验结果表明了这些算法是高效、有效和敏锐的.