论文部分内容阅读
互联网时代来临,为了避免陷入“数据丰富,信息匮乏”的窘迫境地,数据挖掘担负着从海量数据中提取有价值的潜在信息并实现数据价值的重要使命。数据挖掘成为了众多学者在信息时代研究的热点之一。聚类是数据挖掘中的一个重要研究领域,它作为一种数据挖掘工具在诸多领域都有重要的应用。群智能算法是一种新兴的启发式优化算法,根据生物在生态系统中以存活、觅食、求偶等行为模拟而来。它具有自学习、分布性、自组织、并行性等特点,能很好地处理传统计算方法难以解决的一些复杂问题,特别是数据分析。群智能算法在处理一些复杂优化问题方面具备较大的发展潜力。本文详细论述了数据挖掘的基础知识和几种常见的群智能算法,分析了聚类算法存在的问题。论文对萤火虫算法的理论进行了研究和算法改进,并利用改进的算法来解决聚类问题。主要工作如下:(1)针对传统模糊C均值聚类算法初始聚类中心随机选取、容易陷入局部最优、效率低等问题,本文引入了混沌相关理论,提出了一种混沌初始化方法。然后利用Logistic映射修改萤火虫位置更新公式,得到较好的聚类效果。实验结果表明:该算法准确率较高,迭代次数较少。(2)针对传统模糊C均值聚类算法全局搜索能力较差、对初始聚类中心选择较敏感、聚类效果差等缺点,在上一个算法的基础上提出了一种新的小生境萤火虫模糊聚类算法。该算法首先采用了随机性和遍历性更好的立方映射初始化种群,然后引入随机惯性权重以修改萤火虫位置更新公式,以平衡探索和开发的性能。通过实验结果可知:该算法提高了聚类质量并具有较强鲁棒性。(3)针对k-means聚类算法聚类效果差、对初始聚类中心选择过分依赖、全局搜索能力较差等缺点,提出了一种引入莱维飞行机制的萤火虫划分聚类算法。该算法利用基于密度和最大最小距离法来初始化种群,并在萤火虫个体位置更新公式中引入莱维飞行机制,以避免陷入局部最优,同时使收敛速度更快,且具有良好的全局搜索能力,最后利用平衡方差评价函数优化目标函数。实验结果表明,该算法不仅避免了陷入局部最优,提高了k-means算法聚类结果质量,同时削弱了其对初始值的依赖程度。