高维数据的聚类分析研究及应用

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:magicMan555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要组成部分,旨在将混杂在一起的数据对象根据对象间的相似性划分成若干类簇。同一类簇中的数据对象相似性较高,不同类簇中的数据对象差异较大。随着高维数据的普遍存在,且由于高维数据的稀疏性和维灾难效应的影响,导致传统的聚类算法的有效性大大降低甚至失效。因此,关于高维数据下的聚类分析成为研究的热点和难点问题。基于降维技术的高维聚类方法是解决高维数据聚类分析问题的有效途径,本文首先对经典K-means算法进行优化,然后对降维后的数据集进行聚类分析。针对经典K-means算法由于初始聚类中心的随机选择,导致迭代次数过多和聚类结果波动的问题,利用DPC算法的密度峰值搜索过程,提出一种基于局部密度优化初始聚类中心的DPK-means算法。通过计算每个数据点的局部密度i?值和到具有更高局部密度点的距离i?值,选取这两个值都较大的点作为初始聚类中心,从而得到合适的聚类个数K,而具有较大i?值和较小i?值的作为离群点,然后利用K-means算法得到最后的聚类簇。对于高维数据聚类问题,第一阶段用PCA、MDS、ISOMAP、LLE降维方法对高维数据集降维处理,通过评价聚类算法的性能对降维后的特征子集进行评价;第二阶段利用DPK-means算法进行聚类分析。通过在UCI数据集和运动分割数据集上进行实验,比较聚类质量和迭代次数等有效性评价指标,结果表明,DPK-means算法在降维后的高维数据集上具有相对较高的准确率和稳定性。综上,本文从数据挖掘的概念入手,重点研究高维数据聚类分析的问题,借助PCA、MDS、ISOMAP、LLE降维技术,将DPK-means算法应用于UCI和运动分割数据集的聚类问题,取得较高质量的聚类结果,但有待进一步研究离散型、混合类型的非球形数据的聚类问题。
其他文献
在多数实际控制系统中,由于或多或少存在不确定和非线性的因素,建立系统被控对象的准确数学模型通常是不可能的。在非线性时滞随机控制系统中引入不确定性的数学模型可以更真
亚纯函数与整函数的分担值问题是复分析中的重要理论之一。上世纪20年代,R.Nevanlinna建立了亚纯函数值分布理论,是上世纪最重要的数学成果之一,后来被称为Nevanlinna理论。近一