人工鱼群和k-means相结合的聚类算法研究与分布式实现

来源 :江苏大学 | 被引量 : 7次 | 上传用户:ken142560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
k-means算法是一种典型的基于距离的聚类算法,简单、时间复杂度近似于线性使得其较适合大规模数据集的挖掘。k-means算法以误差平方和作为准则函数,每一次迭代均是朝着函数值减小的方向进行。因此也可以把k-means聚类归为优化问题。群体智能优化算法是一种新兴的演化计算技术,它利用群体优势、分布搜索,能够在不了解全局模型情况下快速获得优化问题最优解。基于仿生行为的人工鱼群算法即为一种有代表性的优化算法。该算法通过构造人工鱼来模仿鱼群的觅食、聚群及追尾行为从而实现寻优。收敛速度快、不需要严格的问题模型等是该算法的主要优点。针对人工鱼群算法中鱼群数目多计算量大,固定的最大步长在寻优后期影响收敛速度和寻优精度等问题,论文提出淘汰机制与自适应的最大步长策略。淘汰机制基于适应度函数,通过一定量的次数,淘汰适应度小的人工鱼,减少人工鱼个体数目,降低计算量;自适应的最大步长策略是指在寻优初期,获取大步长加快收敛速度,在寻优后期获取小步长提高寻优精度。论文将人工鱼群算法与k-means算法相结合,用于大规模的数据挖掘。目的是利用人工鱼群算法的全局最优性解决k-means算法对初始中心敏感,容易陷入局部最优问题。所做的主要工作包括:设计了包含聚类数目及聚类中心的编码,即用一条人工鱼代表选择的一种初始聚类中心,这样可以增大找到全局最优聚类中心的概率;把k-means聚类中心引入人工鱼适应度函数,使人工鱼在寻优过程中自动地确定近似全局最优的初始聚类中心。将近似全局最优的初始聚类中心作为k-means初值进行详细地局部搜索,提高精度。传统算法在面对大规模数据时的处理能力难以令人满意,如何高效地挖掘成为当前研究的热点。论文研究云计算环境下海量数据的并行聚类算法,重点是使用MapReduce并行计算框架处理人工鱼群和k-means相结合的算法,在保证聚类效果的前提下,提高算法的可扩展性和效率。
其他文献
一、前言 1978年初,武钢高炉才正式喷吹煤粉。由于设备、工艺方面还存在不少问题,1980年全厂高炉喷煤量仅31.3kg/t。今后随着我国能源构成的变化,重油在高炉喷吹物中的比率
考虑到操作的简单性且实际执行搜索任务时搜索力不是无限可分,将连续空间的搜索问题转换为离散空间的最优搜索问题。通过划分网格,将连续的目标位置分布离散化。根据最优搜索
21世纪的景观设计呈现多元化的发展趋势,给现代行政办公环境景观设计带来了严峻的挑战。湖南省政府新机关大院办公环境景观设计坚持人本主义思想,强调现代办公环境的严谨和秩
1980年7月2日,美国对中国薄荷醇进行首次反倾销调查。2001年中国入世以来,中美贸易一反入世正面效应的常态,贸易摩擦硝烟不断,摩擦的数量和金额迅速增加已经成为我国对外开
一、高炉内的欧根公式欧根(ergun)通过对汽体通过散料层时阻力损失的研究,给出了如下公式: (△P)/L=150(μW(1-ε)~2)/((d_pφ)~2ε~3)+1.75(1-ε)/ε~3×ρW~2/(d_pφ) (1)
期刊
北京时间12月17日凌晨,美联储宣布加息25个基点,这是美联储自2006年6月以来的首次加息,也是美国基准利率自2008年12月以来首次脱离"零利率",同时也意味着,全球最大的经济体或
新三板市场近年来发展迅猛,是我国多层次资本市场的重要组成部分,自2013年全国股转系统接受挂牌企业以来,一系列利好政策和制度的实施,让新三板各项制度建设日趋完善,融资功
目的:通过83例高血铅、镉的观察,探索重金属铅对女性促卵泡素的影响。方法:83例经检查确诊为高血铅者,检测其血铅及性激素,将其结果与血铅正常的107人的性激素对比,进行统计学分析