论文部分内容阅读
为使现有的数据挖掘方法能有效地分析规模急剧增长的数据,扩展这些方法的应用范围,本文从矩阵近似的角度出发,利用矩阵完善的理论与丰富的算法研究了数据约减问题。以最根本的随机矩阵范数的研究为切入点,获得了一个更好的L2范数的指数型上界。在此基础上,估计了一般逐项采样方法的L2和F残差(近似误差)。以优化这些残差为指导,设计了文中称为O/R方法的非均匀采样方法。该方法可为原数据提供稀疏二值矩阵形式的约减,以降低数据挖掘等海量数据分析任务的计算量和存储量。在O/R方法中,采样和量化被自然地结合在一次查询中,而整个数据约减仅需一次遍历原数据即可得到,查询效率和遍历效率均极高。为更好地了解该方法的性能和性质,文中还估计了其在不同范数下的残差以及稀疏率。并通过进一步研究稀疏率和残差间的关系证明了本文提出的O/R方法是一种最优采样方式。该方法根本上克服了现有方法未结合先验知识、可能将原本为零的数据化为非零、可能改变数据符号等对数据挖掘非常不利的缺点。本文还研究了在O/R方法的基础上的降秩矩阵近似并分析了其近似误差,以此为依据设计有效可靠的数据维数约减方法。高维数据集上的数据约减实验结果充分表明本文提出的O/R采样方法能以更少的数据量有效地抓住数据的主要结构刻画其主要特征。在其基础上的降秩近似和维数约减的效果同样也非常显著。在分类与聚类等实际数据挖掘问题中的成功应用再次展示了本文设计的数据约减方法的优良性质,并证明利用这些约减方法可以使现有的数据挖掘算法能有效地用于分析规模巨大的数据,充分显示了其在数据挖掘中的广阔应用前景。这些实验和实际应用结果与理论分析结果日常一致,有力地支持了理论结果,而文中的理论分析也为实验与实际应用结果提供了可信的解释。