论文部分内容阅读
随着计算机信息技术的迅猛发展,人们收集的数据越来越大,我们时常都会遇到像图像、文字、视频、音频等各式各样的数据,现在大家非常关注并且迫切希望解决的问题就是:如何快速有效地从这些庞大的数据中挖掘出其有用的信息或者知识,为学科的发展做出贡献。由此,数据挖掘在这种大背景下应运而生,它提供了很多有效的方法以及可行的工具来解决人们的需求。在数据挖掘领域中,聚类技术是非常重要的无监督学习方法。近些年来,人们对聚类分析技术做了重点的研究及改进,由此可见,人们对它越来越重视了。聚类技术在某些理论方面以及某些应用方面都取得了不错的成绩。现在,聚类分析技术已经在各个方面得到了广泛的应用,比如在模式识别、机器学习、文本分类、图像处理、市场营销、科学统计等领域上。常见的聚类方法有:层次方法、划分方法、网格方法、密度方法、模型方法。其中最著名的就是基于划分的k-means聚类算法。虽然k-means聚类算法具有简单、快速、有效等诸多优点,但还是有很多方面的不足或者说缺陷,比如说,算法初始值的选取具有依赖性和敏感性,重复计算每个数据对象到聚类中心的距离,导致了运行时间的增加等。针对以上的不足,本文所做的主要工作如下:1.针对k-means聚类算法对初始值的选取具有依赖性和较强的敏感性等问题,本文提出了一种改进的k-means聚类算法,主要用于解决传统k-means聚类算法随机选取初始聚类中心的问题,其核心在于改进k-means聚类算法对于初始值的依赖关系。本文选取的初始聚类数目为(?),利用分合并策略来进行类别的合并,该算法的聚类数目不要求用户预先给定出来,分合并后数据集类别的实验结果跟传统k-means聚类算法的实验结果进行对比,可以得到高质量的聚类结果。2.针对k-means聚类算法存在的重复计算每个数据对象到聚类中心的距离、导致运行时间的增加等问题,本文分析了其中的原因,比如计算出k-means聚类算法在每一次迭代中的每个数据对象到聚类中心的距离,这就使得聚类效率不高。为此,本文提出了一种改进的k-means聚类算法用来解决这个问题。在每一次迭代时需要一个简单的数据结构来存储一些相关的信息,在下一次迭代时使用这些信息。改进后的方法避免了重复计算每一个数据对象到聚类中心之间的距离,节省了运行的总时间。最后的实验结果得出:通过改进使得算法的运行时间缩短了,提高了聚类结果的准确性,降低了k-means聚类算法的时间复杂度。