高维数据的聚类分析研究及应用

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:magicMan555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘的重要组成部分,旨在将混杂在一起的数据对象根据对象间的相似性划分成若干类簇。同一类簇中的数据对象相似性较高,不同类簇中的数据对象差异较大。随着高维数据的普遍存在,且由于高维数据的稀疏性和维灾难效应的影响,导致传统的聚类算法的有效性大大降低甚至失效。因此,关于高维数据下的聚类分析成为研究的热点和难点问题。基于降维技术的高维聚类方法是解决高维数据聚类分析问题的有效途径,本文首先对经典K-means算法进行优化,然后对降维后的数据集进行聚类分析。针对经典K-means算法由于初始聚类中心的随机选择,导致迭代次数过多和聚类结果波动的问题,利用DPC算法的密度峰值搜索过程,提出一种基于局部密度优化初始聚类中心的DPK-means算法。通过计算每个数据点的局部密度i?值和到具有更高局部密度点的距离i?值,选取这两个值都较大的点作为初始聚类中心,从而得到合适的聚类个数K,而具有较大i?值和较小i?值的作为离群点,然后利用K-means算法得到最后的聚类簇。对于高维数据聚类问题,第一阶段用PCA、MDS、ISOMAP、LLE降维方法对高维数据集降维处理,通过评价聚类算法的性能对降维后的特征子集进行评价;第二阶段利用DPK-means算法进行聚类分析。通过在UCI数据集和运动分割数据集上进行实验,比较聚类质量和迭代次数等有效性评价指标,结果表明,DPK-means算法在降维后的高维数据集上具有相对较高的准确率和稳定性。综上,本文从数据挖掘的概念入手,重点研究高维数据聚类分析的问题,借助PCA、MDS、ISOMAP、LLE降维技术,将DPK-means算法应用于UCI和运动分割数据集的聚类问题,取得较高质量的聚类结果,但有待进一步研究离散型、混合类型的非球形数据的聚类问题。
其他文献
“一直”与“总”是近年来研究越来越多的两个词,二者的意义和用法有相似之处,许多学者认为这两个词都有“持续不变”的意思,甚至有的字典会用“一直”解释“总”,但是二者也有不
第五届“中国国际现代化铁路装备展览会”于2002年6月12~15日在北京中国国际贸易中心举办。北电网络作为展览会的重要参与者,全面展示了其服务铁路现代化建设的领先技术和产品
随着我国教学改革的不断深入,各个高职院校开始进行思想政治理论课实践教学的研究应用,与此同时实际教学中出现了很多的问题,这些问题的出现使高职院校进行思想政治理论实践
《探索与争鸣》杂志编辑部:贵刊关于“新民本主义”问题的理论讨论选题,非常好,徐勇的《走向新民本主义》和周一平的《回归人民:走向新民本主义》的文章,比较全面而系统地阐
在油井在工作过程中,结蜡是常见的现象,轻者影响到井筒的正常使用,重者危机到出油量,影响到企业的经营效益。随着超导热洗工艺的运用,在一定程度提升了除蜡效果且保障了企业开采的
VSP技术已经广泛应用于南方海相地区的勘探中,通过对南方地区VSP资料的处理,发现某些井存在VSP原始资料信噪比低的情况。分析原因主要是受干扰波的影响比较严重。因此,专门针对
在多数实际控制系统中,由于或多或少存在不确定和非线性的因素,建立系统被控对象的准确数学模型通常是不可能的。在非线性时滞随机控制系统中引入不确定性的数学模型可以更真
本文通过对荣华二采区10
随着我国国民经济的发展,石油工业的发展速度也突飞猛进,采油工程作为石油工业的重要的工作之一,历来受到了高度的重视。平方王油田,有着将近三十多年的历史,在进行油田采油过程中
亚纯函数与整函数的分担值问题是复分析中的重要理论之一。上世纪20年代,R.Nevanlinna建立了亚纯函数值分布理论,是上世纪最重要的数学成果之一,后来被称为Nevanlinna理论。近一