论文部分内容阅读
数据库规模的急剧膨胀使利用已有数据挖掘算法处理大规模数据集的时空代价较大,而抽样技术是一种解决大规模数据挖掘的重要手段,适当的抽样技术可以保证挖掘结果准确性并且降低算法的时空代价。本文主要对数据挖掘中的抽样技术进行研究。 本文主要工作如下: (1)将最优统计样本数的概念引入抽样过程,以克服已有抽样挖掘算法主观因素过重的缺陷。以最优统计样本数为样本容量的抽样挖掘算法不仅能反映数据本身的分布特点,而且能在保证挖掘结果准确性的同时降低抽样的样本容量。 (2)提出一种面向分类规则提取的分层抽样算法。该算法以在保证重要分类规则不丢失的前提下降低样本容量为目的,采用最优统计样本数确定样本容量并且利用分层抽样提高分类算法在不均匀数据集上分类的准确率。 (3)提出一种加权挖掘频繁项集的抽样算法。该算法以在大规模数据集中挖掘大频繁项集为目的,同时兼顾了样本的质量和容量两个方面的因素,能够在保持频繁项集基本不丢失的基础上降低处理的数据规模。 (4)提出一种新的基于随机抽样的网格聚类算法。该算法继承了网格聚类算法对大规模和高维数据聚类良好的伸缩性,并利用随机抽样确定网格划分粒度的方法进一步提高基于网格聚类方法聚类的精确度。 实验结果验证了上述算法的有效性。