论文部分内容阅读
随着大数据时代的来临,对聚类分析的算法也有着越来越高的要求。现有的聚类分析算法有分层聚类算法、划分聚类算法、基于密度的聚类算法、基于网格的聚类算法以及基于模型的聚类算法等等,但这些算法的适用范围有着很大的局限性,难以满足现有数据聚类分析的需求。为了满足高维大数据集在聚类分析方面的需要,本文提出了新的聚类分析算法。算法能够克服传统聚类算法的缺点,降低噪声数据对聚类结果的影响,同时算法能很好地应用到大数据集的聚类问题当中。本文首先对数据挖掘和聚类分析的概念和背景进行了简单介绍,描述了聚类算法在数据挖掘领域的重要性以及在各科学领域的广泛应用。其次,详细的介绍了一些典型优秀的聚类算法,对算法的思想进行了描述,并分析了算法的优缺点以及适用的数据类型;其次,本文详细的介绍了弹性网络算法,对算法的流程和存在的问题进行了分析,并介绍了引入了时变参数的改进的弹性网络算法,分析了改进的弹性网络算法的特性;再次,本文提出了Elastic+K-means算法和AEN算法,并分别介绍了两种算法的流程和优势;最后,本文分别对典型数据集,2维、3维、4维、7维、10维和13维的随机数据集以及标准数据集使用K-means算法,K-medoids算法,Elastic+K-means算法和AEN算法进行了实验对比,同时比较了Elastic+K-means算法和AEN算法在2维和3维数据下的聚类效果,另外比较了AEN算法在求解高维和低维数据集时的性能。