论文部分内容阅读
分形数据挖掘技术是一种利用数据集的分形特征对其进行挖掘的技术,所谓数据集的分形特征是指一个数据集的部分分布与整体分布具有相似的结构或属性。描述数据集分形特征的重要指标是分形维数,分形数据挖掘一般是基于分形维数的。本文对分形数据挖掘技术中的基本问题及其在数据流环境中的应用问题进行了研究。
分形数据挖掘技术以数据集的分形特征为基础,现实的数据集中一般存在着近似的或统计性质上的分形特征,其近似的分形特征存在于无标度区间内,无标度区间的大小反映了数据集的精细程度,位于无标度区间内的点近似于一条直线,这些点近似于直线的程度可以度量数据集体现的自相似程度,本文基于移动盒计数法和多层网格结构的划分方法对无标度区间及不同划分粒度下的最小覆盖集进行了精确度量。
分形维数在数据挖掘领域有着特殊的作用,它能有效地描述数据集,能反映复杂数据集中隐藏的规律性,分形维数是一个特殊的指标量,当它发生变化时,往往说明数据集的某些特征发生了变化,如数据点分布,数据集的变化趋势等,基于分形理论的数据挖掘算法通常都涉及到分形维数的计算,因此分形维数的计算方法是分形数据挖掘技术要解决的首要问题。但是现有的分形维数计算方法时间复杂度和空间复杂度都比较高,这大大降低了算法的效率,使算法很难适应高速、海量的数据流环境。本文总结分析了现有的几种分形维数计算方法,将分形维数的计算方法分为确定型算法和随机型算法两种类型,并提出一种灵活高效的随机型算法来估计数据流的分形维数。最后,以随机型分形维数计算方法为基础,研究了分形数据流聚类方法。