论文部分内容阅读
k-means算法是一种典型的基于距离的聚类算法,简单、时间复杂度近似于线性使得其较适合大规模数据集的挖掘。k-means算法以误差平方和作为准则函数,每一次迭代均是朝着函数值减小的方向进行。因此也可以把k-means聚类归为优化问题。群体智能优化算法是一种新兴的演化计算技术,它利用群体优势、分布搜索,能够在不了解全局模型情况下快速获得优化问题最优解。基于仿生行为的人工鱼群算法即为一种有代表性的优化算法。该算法通过构造人工鱼来模仿鱼群的觅食、聚群及追尾行为从而实现寻优。收敛速度快、不需要严格的问题模型等是该算法的主要优点。针对人工鱼群算法中鱼群数目多计算量大,固定的最大步长在寻优后期影响收敛速度和寻优精度等问题,论文提出淘汰机制与自适应的最大步长策略。淘汰机制基于适应度函数,通过一定量的次数,淘汰适应度小的人工鱼,减少人工鱼个体数目,降低计算量;自适应的最大步长策略是指在寻优初期,获取大步长加快收敛速度,在寻优后期获取小步长提高寻优精度。论文将人工鱼群算法与k-means算法相结合,用于大规模的数据挖掘。目的是利用人工鱼群算法的全局最优性解决k-means算法对初始中心敏感,容易陷入局部最优问题。所做的主要工作包括:设计了包含聚类数目及聚类中心的编码,即用一条人工鱼代表选择的一种初始聚类中心,这样可以增大找到全局最优聚类中心的概率;把k-means聚类中心引入人工鱼适应度函数,使人工鱼在寻优过程中自动地确定近似全局最优的初始聚类中心。将近似全局最优的初始聚类中心作为k-means初值进行详细地局部搜索,提高精度。传统算法在面对大规模数据时的处理能力难以令人满意,如何高效地挖掘成为当前研究的热点。论文研究云计算环境下海量数据的并行聚类算法,重点是使用MapReduce并行计算框架处理人工鱼群和k-means相结合的算法,在保证聚类效果的前提下,提高算法的可扩展性和效率。