论文部分内容阅读
国内外学者已经提出很多聚类方法,这些方法各有优缺点,如K-均值算法简单易行、收敛快速,但是它需要事先给出聚类数目K,这在实际问题中是很难做到的;此外,该算法随机选取初始聚类中心,使得相同的数据会有不同的聚类结果,甚至存在无解的情况;更严重的是,该算法由于基于目标函数采用迭代搜索,因而易陷入局部最优解。为克服以上缺陷,国内外学者对此进行了改进。
由于遗传算法是一种借鉴生物界自然选择和进化机制发展起来的具有自适应和自组织能力的搜索算法,被广泛应用于求解复杂的优化问题。它的主要的优点是简单、通用、鲁棒性强和适合并行处理,通用性强,是一种与问题无关的求解模式。遗传算法是一种应用广泛的全局优化方法之一,它通过对多个个体组成的种群进行操作,用遗传算子来使个体间的信息得以交换,这样群体中的个体一代一代得以演化,并逐步逼近最优解。由于遗传算法的全局优化性能克服K-means算法对初始化敏感的这一缺点,人们开始用遗传算法来聚类。
遗传聚类是将GA应用于聚类的一种方法,其基本思想是通过遗传学习,将上一代的优良特性保留下来,并通过个体之间的基因组合、变异从而产生更为优良的下一代个体,这样经过数代的个体进化,最终找到满意的个体。遗传聚类其要点是将GA计算得到的最优个体信息应用于某一聚类算法,从而得到基于GA的最优聚类。任何聚类结果都必须有一个评判标准,一般说来,较好的聚类结果应该是:同一类内的个体之间相似性较大,不同类内的个体之间相似性较小。如果用个体之间距离来衡量个体之间的差异,那么同一类内的个体之间距离应尽可能的小,而不同类内的个体之间距离应尽可能的大。GA使用适应度来度量群体中个体在优化计算中有可能达到或接近于或有助于找到最优解的优良程度。个体适应度越大,聚类效果越好。
本文作者在深入分析遗传聚类基本原理基础上,对K-Means算法、SGA聚类算法以及混合K—means算法做了比较研究,并对实验结果做了细致分析,得出了一些有用结论:
(1)本文设计的GA聚类算法,运行在本文指定的数据集上其聚类性能相比K-Means、PAM以及混合遗传聚类都要好,其平均适应度在0.0033,而K-Means为0.00297,PAM为0.00280,混合聚类与K-Means相当(适应度的计算都基于欧式距离);
(2)PAM方法并不见得比K-Means方法优秀,混合K-Means的SGA聚类方法相比K-Means方法也没有带来更好的实验结果,在SGA聚类的参数实验中,交叉概率、变异概率、精英个体数目、种群规模等的设置在合理范围内能提升聚类质量,而在这个范围之外,对聚类质量的改善并不明显,有时甚至会降低聚类的质量。
本文共分六章,第一章概要介绍了遗传算法、数据挖掘的相关知识;第二章详细介绍了遗传算法的基本原理、实现及其应用,并给出了一个函数优化的例子,说明了遗传算法的大致解题过程;第三章大致介绍了数据挖掘及聚类相关的技术,讨论了数据挖掘的过程、功能以及聚类技术的基本原理与应用;第四章介绍了遗传聚类的相关技术与应用,并详细讨论了遗传聚类的基本原理;第五章给出了K-means聚类、SGA聚类以及混合K-Means遗传聚类的实验结果与分析;最后一章结合实验结果与实验分析给出了相关结论。