K-means聚类算法的改进

来源 :广西师范大学 | 被引量 : 17次 | 上传用户:purelife100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机信息技术的迅猛发展,人们收集的数据越来越大,我们时常都会遇到像图像、文字、视频、音频等各式各样的数据,现在大家非常关注并且迫切希望解决的问题就是:如何快速有效地从这些庞大的数据中挖掘出其有用的信息或者知识,为学科的发展做出贡献。由此,数据挖掘在这种大背景下应运而生,它提供了很多有效的方法以及可行的工具来解决人们的需求。在数据挖掘领域中,聚类技术是非常重要的无监督学习方法。近些年来,人们对聚类分析技术做了重点的研究及改进,由此可见,人们对它越来越重视了。聚类技术在某些理论方面以及某些应用方面都取得了不错的成绩。现在,聚类分析技术已经在各个方面得到了广泛的应用,比如在模式识别、机器学习、文本分类、图像处理、市场营销、科学统计等领域上。常见的聚类方法有:层次方法、划分方法、网格方法、密度方法、模型方法。其中最著名的就是基于划分的k-means聚类算法。虽然k-means聚类算法具有简单、快速、有效等诸多优点,但还是有很多方面的不足或者说缺陷,比如说,算法初始值的选取具有依赖性和敏感性,重复计算每个数据对象到聚类中心的距离,导致了运行时间的增加等。针对以上的不足,本文所做的主要工作如下:1.针对k-means聚类算法对初始值的选取具有依赖性和较强的敏感性等问题,本文提出了一种改进的k-means聚类算法,主要用于解决传统k-means聚类算法随机选取初始聚类中心的问题,其核心在于改进k-means聚类算法对于初始值的依赖关系。本文选取的初始聚类数目为(?),利用分合并策略来进行类别的合并,该算法的聚类数目不要求用户预先给定出来,分合并后数据集类别的实验结果跟传统k-means聚类算法的实验结果进行对比,可以得到高质量的聚类结果。2.针对k-means聚类算法存在的重复计算每个数据对象到聚类中心的距离、导致运行时间的增加等问题,本文分析了其中的原因,比如计算出k-means聚类算法在每一次迭代中的每个数据对象到聚类中心的距离,这就使得聚类效率不高。为此,本文提出了一种改进的k-means聚类算法用来解决这个问题。在每一次迭代时需要一个简单的数据结构来存储一些相关的信息,在下一次迭代时使用这些信息。改进后的方法避免了重复计算每一个数据对象到聚类中心之间的距离,节省了运行的总时间。最后的实验结果得出:通过改进使得算法的运行时间缩短了,提高了聚类结果的准确性,降低了k-means聚类算法的时间复杂度。
其他文献
公交车客流统计系统的实现对提高公交系统智能化水平,改善公交乘车环境具有重要意义。然而现有的公交客流统计系统,如基于压力踏板、IC卡和红外传感器的方法,由于可维护性差
凝聚态物质结构的理论预测是材料、物理和化学等学科长期关注的挑战性课题.论文作者和课题组其他成员合作,基于粒子群多目标优化算法,引入结构表征的成键特征矩阵,提出并发展
随着计算机网络和卫星跟踪技术的不断发展,GPS/GPRS技术在民用方面的应用越来越广泛,特别是应用于车辆行驶过程中的监控、指挥和调度。随着中国邮政事业的发展进步,邮政部门
智能变电站电子式电流互感器目前缺乏一种能够模拟实际运行工况的升流验收方法。为此基于常规电流互感器的全站升流验收方法,提出了一种智能变电站电子式电流互感器升流验收
<正>习近平总书记强调,开展"不忘初心、牢记使命"主题教育,要结合党史和新中国史的学习深入下去。回顾党的历史,我们无不为革命领袖的平民情怀所深深感动,正是这种情怀使共产
圆锥曲线是解析几何的精华所在,圆锥曲线的最值问题就成了高考的重要内容之一,它融合了解析几何、不等式、函数于一体.对解题者来说,能力要求也比较高,因此这类问题成了高考
自2008年汶川地震后,在近10年时间有3次7级以上大震发生于青藏高原周缘地区:2013年4月20日Ms7.0芦山地震,2015年4月25日Ms8.1尼泊尔地震,2017年8月8日Ms7.0九寨沟地震。一系
<正>近期,国家安全监管总局、中共中央宣传部、中华全国总工会、共青团中央等8部门联合印发了《关于加强全社会安全生产宣传教育工作的意见》,把搞好生产安全事故的警示教育
通过对独立机泵组泥浆泵传动系统的研究,由于其设计方式的传动减速比较低,在许多工况下,为满足泥浆泵的排量要求,柴油机经常低速运转引起故障,导致无法完成作业。通过对两档
现有的民用航空器航线维修系统中存在人为安排造成的人力资源调配不合理、工作任务分配不均匀和难以准确统计生产人员工作量的情况:通过对该工作流程及客户需求进行梳理和分析