面向复杂数据的密度峰值聚类算法研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:wodekechengsheji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
密度峰值聚类(Density Peaks Clustering,DPC)是一种基于密度的聚类算法,通过将数据对象映射到二维决策图快速识别聚类中心,完成对数据集的有效划分。自2014年提出以来,DPC算法掀起了密度聚类的研究热潮并成功应用于很多领域。DPC算法无需预设类簇数、无需迭代、有且仅有一个输入参数,可以有效处理非球形数据集并识别离群点。但是,DPC算法的理论尚不成熟,面向日积月累的复杂数据存在以下两方面挑战:(1)传统DPC算法中相似度矩阵的构造导致较高的计算复杂度,因此不适用于样本规模较大的数据;(2)传统DPC算法鲁棒性较差,无法处理多密度峰结构的数据以及特征维度较高的数据。为了解决以上问题,本文深入分析了DPC算法在面向大规模数据、多密度峰数据和高维数据时的不足,并对其进行了系统的研究,具体内容如下:1.对面向密度峰值聚类的采样方法进行研究。针对传统DPC算法处理大规模数据的高计算复杂度问题,本文提出基于预筛选的快速密度峰值聚类。具体而言,设计了两种预筛选策略,分别基于网格划分和圆划分筛选局部密度较大的数据对象,为密度峰值聚类提供了普适的采样方法。在预筛选策略的基础上,提出了快速密度峰值聚类算法,在局部密度较大的数据对象中快速识别聚类中心,从而有效降低了计算复杂度。2.对面向大规模数据的密度峰值聚类进行研究。传统DPC算法由于相似度矩阵的构造导致较高的计算复杂度,虽然已经提出有效降低计算复杂度的方法,但是这些方法影响了聚类精度并且引入了困难参数。为了平衡聚类精度与计算复杂度,本文提出基于稀疏搜索的快速密度峰值聚类。具体而言,设计了基于不相似性的稀疏搜索策略,利用不相似性搜索最近邻点。基于该稀疏搜索策略,提出了面向大规模数据的密度峰值聚类算法,通过仅度量最近邻点间的相似度完成聚类划分,实现了聚类精度与计算复杂度的平衡。3.对面向多密度峰数据的密度峰值聚类进行研究。针对传统DPC算法无法获取多密度峰数据的理想划分问题,本文提出基于反馈策略的密度峰值聚类。具体而言,设计了一种反馈策略,基于支持向量合并子类。基于该反馈策略,提出了面向多密度峰数据的密度峰值聚类算法,通过先多聚类再合并子类的方法极大程度的降低了聚类中心对聚类结果的影响,从而提高了处理多密度峰数据的聚类精度。4.对面向高维数据的深度密度聚类进行研究。针对传统DPC算法无法处理高维数据的问题,本文提出半监督深度密度聚类。具体而言,采用卷积自编码器提取高维数据特征,并设计了半监督密度峰值聚类识别稳定的聚类中心。然后,集成先验信息定义了一个联合聚类损失,同时执行特征表示和聚类分配,从而提高了面向高维数据的聚类性能。通过多类型数据以及大量实验验证,本文提出了一套高效且鲁棒的密度峰值聚类算法体系,丰富了聚类分析的研究内容,而且可为图像识别提供理论与技术支持。该论文有图49幅,表24个,参考文献174篇。
其他文献
低煤级烟煤瓦斯非均质性分布的地质机理一直是煤矿安全开采生产亟待解决的关键科学问题,不仅具有理论价值,还有重要的社会和实际意义。为此,本文选择了鄂尔多斯盆地南部主要发育低煤级烟煤、瓦斯灾害比较突出的彬长矿区为研究区,以主采4号煤层为研究对象,开展相关研究,期望在低煤级烟煤瓦斯赋存及其非均质性分布的控制机理领域取得新进展,并为矿井安全生产提供理论和技术支撑。本文在研究区地质资料和生产数据综合分析的基础
学位
刺激响应材料是一类可对外部刺激做出响应的“智能”材料,近些年来逐渐成为研究的热点,被广泛应用于智能防伪及荧光传感等领域。然而,设计开发具有多重刺激响应性质,具有动态刺激响应以及在固/液态均具有刺激响应性质的化合物仍然是很大的挑战。本论文主要以四苯乙烯分子作为功能母体,通过合理的分子设计,开发新型刺激响应材料,对其性质和响应机制进行研究,并对材料的实际应用进行探索。论文的主要研究内容如下:1设计合成
学位
全球导航卫星系统(Global Navigation Satellite Systems,GNSS)作为一项颠覆性的导航技术,在诸多重要领域(例如,测绘、气象、交通、环境和农业等)都得到了广泛的应用。GNSS作为一种新型的水汽探测手段,具有重要的研究前景和应用潜力。它克服了传统气象观测水汽的诸多缺点(成本高、时间分辨率低、仪器偏差与漂移影响较大、易受天气影响等),能够实时反映大气环境的变化规律,全
学位
煤和岩体由于强度及变形特征差异较大,导致含层理巷道在高应力条件下表现出非连续大变形特征,是煤矿现场经常遇到的难题之一。而现阶段的巷道支护理论大多基于完整岩层考虑,在含层理巷道中的应用效果并不理想。本文综合运用实验室试验、理论分析、数值模拟和现场实践等方法,开展高应力含层理巷道围岩变形机理及控制技术研究。基于试验结果及理论分析模型,实现对损伤本构模型的二次开发,通过自定义本构模型对影响含层理巷道变形