论文部分内容阅读
数据挖掘的目的是从海量的数据中提取人们感兴趣的,有价值的知识和重要的信息,聚类分析则是数据挖掘的一个重要研究领域。它在商业、生物、医学、地质、Web文档等方面都有重要的应用,是当前的研究热点问题之一。 本文对混合属性数据集聚类方法进行了研究,主要做了以下工作: 1.将基于蚁群的聚类算法用于混合属性数据集的聚类问题。在基本蚁群聚类算法(LF算法)的基础上,提出了一种改进的基本蚁群聚类算法(ILF算法),在该算法中,引入了公式改进、半径递增、短期记忆、空间分割等策略,大大提高了算法的效率,并且使聚类性能得到较好的改善。同时,该算法利用了自适应原理,在一定程度上,可以加快进化过程,而且是一种本质上分布并列的算法,因此具有很高的效率,适合数据集聚类分析。同时采用了一种新的距离测度函数将数值特征与类属特征相结合,从而实现了具有混合属性特征数据的聚类分析。通过对UCI数据库进行测试,仿真实验结果表明,改进后的算法具有较强的鲁棒性,对于处理具有混合特征的数据集聚类问题是相当有效的,最后的聚类质量也达到了令人满意的效果。 2.对基于信息熵的蚁群聚类算法(EAC算法)进行改进,提出了IEAC算法,通过信息熵的计算与比较,改变了拾起和放下数据的规则,减少了参数设置,并通过半径递增、短期记忆、强行放下等策略,提高了聚类性能。这种方法对于处理混合属性数据集尤其是类属性数据集聚类问题是相当有效的。