论文部分内容阅读
密度峰值聚类(Density Peaks Clustering,DPC)是一种基于密度的聚类算法,通过将数据对象映射到二维决策图快速识别聚类中心,完成对数据集的有效划分。自2014年提出以来,DPC算法掀起了密度聚类的研究热潮并成功应用于很多领域。DPC算法无需预设类簇数、无需迭代、有且仅有一个输入参数,可以有效处理非球形数据集并识别离群点。但是,DPC算法的理论尚不成熟,面向日积月累的复杂数据存在以下两方面挑战:(1)传统DPC算法中相似度矩阵的构造导致较高的计算复杂度,因此不适用于样本规模较大的数据;(2)传统DPC算法鲁棒性较差,无法处理多密度峰结构的数据以及特征维度较高的数据。为了解决以上问题,本文深入分析了DPC算法在面向大规模数据、多密度峰数据和高维数据时的不足,并对其进行了系统的研究,具体内容如下:1.对面向密度峰值聚类的采样方法进行研究。针对传统DPC算法处理大规模数据的高计算复杂度问题,本文提出基于预筛选的快速密度峰值聚类。具体而言,设计了两种预筛选策略,分别基于网格划分和圆划分筛选局部密度较大的数据对象,为密度峰值聚类提供了普适的采样方法。在预筛选策略的基础上,提出了快速密度峰值聚类算法,在局部密度较大的数据对象中快速识别聚类中心,从而有效降低了计算复杂度。2.对面向大规模数据的密度峰值聚类进行研究。传统DPC算法由于相似度矩阵的构造导致较高的计算复杂度,虽然已经提出有效降低计算复杂度的方法,但是这些方法影响了聚类精度并且引入了困难参数。为了平衡聚类精度与计算复杂度,本文提出基于稀疏搜索的快速密度峰值聚类。具体而言,设计了基于不相似性的稀疏搜索策略,利用不相似性搜索最近邻点。基于该稀疏搜索策略,提出了面向大规模数据的密度峰值聚类算法,通过仅度量最近邻点间的相似度完成聚类划分,实现了聚类精度与计算复杂度的平衡。3.对面向多密度峰数据的密度峰值聚类进行研究。针对传统DPC算法无法获取多密度峰数据的理想划分问题,本文提出基于反馈策略的密度峰值聚类。具体而言,设计了一种反馈策略,基于支持向量合并子类。基于该反馈策略,提出了面向多密度峰数据的密度峰值聚类算法,通过先多聚类再合并子类的方法极大程度的降低了聚类中心对聚类结果的影响,从而提高了处理多密度峰数据的聚类精度。4.对面向高维数据的深度密度聚类进行研究。针对传统DPC算法无法处理高维数据的问题,本文提出半监督深度密度聚类。具体而言,采用卷积自编码器提取高维数据特征,并设计了半监督密度峰值聚类识别稳定的聚类中心。然后,集成先验信息定义了一个联合聚类损失,同时执行特征表示和聚类分配,从而提高了面向高维数据的聚类性能。通过多类型数据以及大量实验验证,本文提出了一套高效且鲁棒的密度峰值聚类算法体系,丰富了聚类分析的研究内容,而且可为图像识别提供理论与技术支持。该论文有图49幅,表24个,参考文献174篇。