论文部分内容阅读
聚类分析是数据挖掘的重要分支之一。由于现实分类往往伴随着模糊性,因此把模糊数学方法引入聚类分析,可望聚类结果更切合实际。本文简要介绍了模糊集合、模糊关系理论,以及基于相似关系的模糊聚类的常见算法,这些是理解本文新算法必要的理论基础。本文的工作主要体现在以下两方面:
1.编网法作为一种常见的聚类方法,虽然易于人的理解,但它并不利于编程的实现,本文增加了单链表的链接结构表示相似关系的传递性,提出了一种易于编程实现的基于单链表结构的模糊聚类方法。
2.目前有一大部分基于相似关系的模糊聚类算法对于传递性的计算是基于合成关系的“Max-Min”特性的,当不同的聚类的部分样本有重叠时,这种方式进行往往不能很好地区分它们。针对这一问题,本文引入基于划分的聚类算法的聚类中心的概念以及k近邻算法的思想,在模糊相似关系的基础上进行聚类。
本文讨论了初始聚类中心的选取、云团构建、孤立点划分等问题,并在大量实验的基础上证明了所提出的新聚类方法的有效性。