论文部分内容阅读
对高维数据进行挖掘是当前机器学习领域的热点。然而高维数据普遍具有高维、稀疏和噪音的性质,因此识别过程中容易导致“维数灾难”,从而影响识别效果。稀疏子空间聚类算法是一种有效的对高维数据进行聚类的算法。它首先学习输入高维数据在低维子空间上的表示系数矩阵,然后利用表示系数矩阵构造亲和力矩阵,最后将其输入谱聚类得到高维数据的聚类结果。当前,许多相关研究致力于学习到合适的表示系数矩阵,但却忽略了噪声项对子空间聚类的影响,也忽略了在得到表示系数矩阵后如何更好地构建亲和力矩阵。(i)如何设计一个具有鲁棒性,能有效对抗高噪声和对抗多种类型噪声的稀疏子空间聚类模型以及(ii)如何构造更有效的亲和力矩阵是本文研究的重点。基于块对角表示的子空间聚类算法可以直接约束表示系数矩阵呈现块对角结构,从而可以降低对数据质量的要求。本文通过对这种方法的研究,提出了基于块对角表示的鲁棒子空间聚类算法(RBDR)用于解决高噪声环境下的聚类问题,还提出了基于扩散的块对角表示的鲁棒子空间聚类算法(RBDRD)用于更好地学习亲和力矩阵。本文的主要工作概括如下:(1)提出了RBDR模型,用以解决未知类型高噪声对高维数据聚类的影响。主要创新点在于对数据的重构误差进行重加权,以及将重加权矩阵及其参数的优化过程设计成可直接计算的形式。在该模型中,通过对重构误差进行重加权,可以有效处理高噪声环境下的高维数据聚类问题,提升算法抗噪性,并且这种噪声处理方法无需具有对噪声类型的先验知识,因此更适用于真实条件下的复杂场景。同时,精心设计的模型优化方法可以降低模型优化复杂度和参数训练时间。(2)提出了RBDRD模型,用以解决亲和力矩阵学习不充分的问题。主要创新点在于引入了扩散的思想来学习亲和力矩阵。该模型通过采用扩散过程来迭代地充分利用局部邻域结构,每个成对的亲和力都通过与其他亲和力的亲和关系进行增强和重新评估,从而生成可以更好地表示数据的真实几何形状的亲和力矩阵。同时,扩散过程可以增强同一子图内边的连通性,有利于更好地进行图划分从而提升谱聚类的效果。