论文部分内容阅读
聚类分析是数据挖掘的重要研究方向,其目的主要在于发现数据中隐含的类结构,将数据对象分成不同的簇或类,使得同一类的对象之间相似度较大,而不同类对象之间相似度较小。基于度量学习理论研究相似性度量函数是聚类分析的关键技术之一,随着度量方法和聚类技术的发展,国内外众多研究者已提出许多基于相似性度量的聚类算法,但面对海量高维复杂数据时,现有的度量方法和和聚类分析技术只考虑了样本的空间结构,忽略了样本间的相关性,导致分类准确率较低,且耗时过长等问题。本论文利用度量学习理论改进聚类分析方法中的相似性度量,并将数据降维算法与聚类算法相结合,提出了处理复杂数据的聚类算法,通过实验分析验证了这些算法的有效性。本文的主要研究内容总结如下:(1)针对传统近邻传播聚类算法在处理高维复杂数据时,只考虑样本的空间结构,容易造成错分,且迭代更新时容易陷入局部震荡,无法收敛,使聚类效果降低等情况,提出了基于局部线性嵌入(Locally linear embedding,LLE)和混合核函数的近邻传播聚类算法。首先,通过引入LLE算法将高维数据集映射到低维空间,以达到降维的效果;然后,依据全局核函数泛化能力强的特点,提出了新的全局核函数,并证明其符合Mercer条件;同时,将该全局核函数与高斯核函数进行线性组合,设计了新的混合核函数,以获得较好的泛化能力和学习能力;接着,利用提出的混合核函数构建了相似性度量及相似度矩阵,设计了基于混合核函数的近邻传播聚类算法;其次,在迭代更新步骤中引入了阻尼因子,使得每一次迭代的可用度和可信度值受上一次迭代值的约束,进而提高了算法的稳定性;最后,在若干个基因数据集和UCI标准数据集上进行仿真实验,通过几种聚类评价指标验证了改进后的近邻传播聚类算法的聚类精度比其他相关算法更高。(2)为解决传统密度峰值聚类算法难以处理大规模非平衡的复杂数据,且在计算数据点之间的距离时,忽略样本间的相似性和相关性,二维决策图选取聚类中心需要通过人工干预,影响聚类结果的客观性等问题,提出了基于Fisher线性判别的自适应密度峰值聚类算法。首先,引入了Fisher线性判别法对高维复杂数据集进行降维;然后,根据数据的局部结构特点,引入了高斯核密度估计方法计算各数据点的局部密度,定义了新的加权欧氏距离用于度量样本间的距离,利用Pearson相关系数绝对值的倒数作为权重,确保能够同时考虑样本的空间结构和样本间的相关性;同时,提出了密度估计熵,使其达到最小值来自适应地选取密度估计参数,消除了人工设定参数带来的误差;其次,构建了一种自适应选取聚类中心策略,避免了人工选择聚类中心影响聚类结果的客观性,进而设计了基于Fisher线性判别的自适应密度峰值聚类算法;最后,在若干个人工数据集、UCI标准数据集和基因数据集上进行仿真实验,证明了该算法能够更准确的选取聚类中心,并获得较高的聚类精度。(3)为解决传统双聚类算法不能准确发现重叠的双聚类簇,在处理高维复杂数据时,一致波动性效果较差等问题,设计了一种基于粗糙均方残基的模糊双聚类算法。针对高维复杂数据集,首先,对其缺失值进行填补,采用非负矩阵分解算法对高维复杂数据集进行维度约简,剔除冗余特征,筛选出有效特征子集;然后,为获取较大容量的双聚类簇,将粗糙集理论和模糊双聚类算法相结合,基于粗糙集的上、下近似集研究加权均方残差,提出了新的粗糙均方残基,构建了粗糙模糊双聚类算法,运用综合评判度量函数与贴近度原则对矩阵的行列进行删除和添加,得到了容量更大的双聚类结果;最后,在若干个高维复杂数据集上进行仿真实验,证明了该模糊双聚类算法是有效的。