【摘 要】
:
数据挖掘是随着信息技术不断发展而形成的一门新兴的交叉学科,是信息处理和数据库技术领域的前沿研究课题。聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督
论文部分内容阅读
数据挖掘是随着信息技术不断发展而形成的一门新兴的交叉学科,是信息处理和数据库技术领域的前沿研究课题。聚类分析是数据挖掘的一个非常重要的研究分支。聚类是一种无监督的分类方法,目标是在没有任何先验知识的情况下,将数据集划分成不同的类,使得不同类中的对象尽可能相异,相同类中的对象尽可能相似。K-means算法作为聚类分析中的经典算法现已被广泛应用在商务、市场分析、生物学、文本分类等领域。K-means聚类算法具有较强的局部搜索能力,但是对初始聚类中心敏感,容易陷入局部最优,影响了聚类结果。而遗传算法是一种高效的全局搜索方法,它的局部搜索能力较差。本文将K-means聚类算法与遗传算法相结合,互相取长补短,提出了一种基于遗传算法的K-means聚类算法(KBGA),并通过实验验证了算法的有效性。本文工作主要体现在以下几个方面:首先,详细介绍了K-means聚类算法,分析了K-means聚类算法的优缺点,并在此基础上,提出了解决缺点的方法。其次,介绍了数据挖掘中的一个重要算法——遗传算法。对遗传算法的概念、组成、应用流程、应用中的问题等进行了详细描述。再次,提出了一种改进的遗传K-means聚类算法(KBGA)。由于传统的K-means算法对初始聚类中心非常敏感,本文提出了一种基于相似度的最小最大原则的方法来选取初始聚类中心,并提出了一种相应的改进的K-means聚类算法(IKA)。另外由于K-means聚类的初始聚类数K的选择也是是影响聚类的一个重要参数。为了获得高精度的聚类结果,基于遗传算法和K-means算法的特点,本文提出了一种基于遗传算法的求K值方法,从编码方法、适应度函数的构造、选择算子、交叉算子和变异算子的设计等方面进行了改进。最后,为了测试本文提出的聚类算法的性能,本文通过实验对两种算法的聚类结果进行比较,实验结果表明本文算法能够有效地解决聚类问题。
其他文献
冰岛是欧洲的第二大岛屿,在成因类型上,是由于地幔柱上涌而形成的碱性玄武岩区,属于周期性的海底岩浆活动和海底火山喷发而形成的火山岛.全岛主要由玄武岩组成,并可分为4个主
信息能力一词最早是由美国信息产业协会主席Paul Zurkowski在1974年美国图书情报学全国委员会上所提交的一份协议书中提出的。信息能力是国家、地区、城市、社会组织等的综合
将学本教育理念应用在化学与健康课程的大学课堂教学改革中,以自学、互学、展学为主要途径,实现先学后教互助展评的教学模式,这样的教与学氛围得到学生的认可和接受,不但培养
本文总结了新型冠状病毒肺炎患者隔离期间常见的心理特点,包括恐惧感、焦虑感、孤独感、悲观感,并初步探讨了相应的中西医结合护理对策.
河北省邯郸市肥乡区于2019年被列为全国农民合作社质量提升整县推进试点,针对农民合作社发展过程中贷款难、参保贵等痛点难点,创建了“农民合作社综合服务体”(以下简称“综
共享服务中心模式能够增强集团型企业的管控能力、有效的降低企业经营成本,提高运营效益,以及提升企业的服务品质。随着共享服务中心逐渐成熟,我国一些像中兴通信、华为、中国移动、平安集团一些大型企业集团积极的开展共享服务中心实践。然而,共享服务中心的建设在寻求新的升级突破。信息共享服务中心是共享服务中心不断发展,进行职能全覆盖,不断的深入与创新,注重增值服务流程的挖掘,利用规模效应优势由当初的事务处理中心
故事是孩子最易触摸,最易理解,最愿探究的区域,故事最能诠释孩子的天性——童心.从学生、班级、学校三个层面开展故事特色活动,用孩子的视角去影响孩子,让孩子成为孩子.通过
随着近年来产业升级和技术革新,交通运输业正向着多元化、信息化、智能化、国际化方向发展,未来对高校培养的交通运输类人才有了新的要求.新工科作为新时期我国工程教育改革
《语文课程标准》中指出:"九年义务教育阶段的语文课程,必须面向全体学生,使学生获得基本的语文素养。"而"培养学生的语感"便是这语文素养中很重要的一个方面。《语文课程标准》中多
信息化时代的到来给混合式教学提供了很大的发展空间.本文主要从混合式教学模式的总体设计、实施方案和优缺点等几个方面,对我校经济数学课程的实践过程进行总结.应用该模式