聚类分析中基于投影的k均值算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户：isaxu

【摘要】

：

数据挖掘是机器学习领域内广泛被研究的知识领域，是将人工智能技术和数据库技术紧密的结合，让计算机能帮助人们从大数据量的数据库中智能地、自动地获取出有价值的知识模式和规

【作者】

：

厉于行

【机构】

：

浙江大学

【出处】

：

浙江大学

【发表日期】

：

2012年期

【关键词】

：

数据挖掘聚类分析 k均值算法投影距离孤立点分离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘是机器学习领域内广泛被研究的知识领域，是将人工智能技术和数据库技术紧密的结合，让计算机能帮助人们从大数据量的数据库中智能地、自动地获取出有价值的知识模式和规律信息，以满足人们不同应用的需要。K均值算法作为聚类分析中应用极其广泛的一个算法，具有伸缩性好，效率高的优势。但是k均值算法这样的划分算法依赖k值的确定，初始聚类中心的选择以及不同样本对象条件下的相似度度量的选取。而且对于孤立点的影响很敏感，少数偏远孤立点就会造成很大影响。在运算效率方面对于大量高维数据，最大的阻碍在于欧氏距离定义下的距离计算。本文也提出了关于距离计算的效率改进和孤立点的分离。　　针对k均值算法的各个不足之处，本文分别研究了其对应的改进算法。包括对于初始聚类中心选取的改进方法来进行初始中心点的选取，聚类中心和聚类均值点分离的方法来减少孤立点的干扰以及基于核函数的改进方法。对于效率提升方面提出了基于投影的改进方法，结合投影降维的理论对k均值算法进行改进，对所有待聚类的向量在选定的方向上计算投影距离，建立一个所有向量的投影距离的索引.在每次迭代重新分配点时进行一次投影距离的判断，排除投影距离相距过大的点，从而减少距离的计算次数。并将对于所有类都投影距离过大的点设置为孤立点.这样不仅提高了算法效率并且减少孤立点对于本身算法的影响。最后数据测试结果也显示效果不错。　　

其他文献

小学英语生本课堂中情景教学法的实践研究

自从我国小学开始实施新课程教学改革之后,大部分的英语教师都在为提高学生的英语成绩寻找方法.英语作为一门外语,大部分的小学生从小来说并不会有机会接触,因此在教学进行的

期刊

小学英语情景教学兴趣实践研究

关于一些指数和的均值研究

数论中的指数和，Kloosterman和，Guass和，Ramanujan和等和式都有紧密的联系.近年来，很多学者深入的研究了这些问题，并且获得了很多优秀的研究成果.本文运用简化剩余系，三角和，Dirichl

学位

数论指数和均值

无形体病模型的动力学分析

本文主要从数学上研究了无形体病的病原学和流行病学,并建立了相应的数学模型.我们分别考虑了具有Holling-II功能反应的三种群无形体病模型和具有Holling-II功能反应的两种群

学位

无形体病复合矩阵全局稳定

石油化工项目管理EPC承包模式的研究与应用

随着经济的快速发展,我国石油化工行业也获得更大的发展空间,石油化工项目的规模也越来越大,效益也在不断的增加,因此对于工程项目的管理模式也提出了更高的要求.EPC总承包模

期刊

石油化工项目EPC模式应用

Stein方法在复合泊松分布近似中的应用

分布近似在概率论与数理统计中是一个重要的分支,它在统计学科研和实践中都是很重要的工具。Stein方法是一种很有用的可用于分布近似的方法。Stein方法可用于考察随机变量的

学位

Stein方法泊松近似复合泊松近似全变差距离

基于最优划分的多密度梯度网格聚类算法

数据挖掘是从数量庞大的、随机出现的、客观存在的、不完全的并充满噪声的数据中提取和发现有价值的信息，从而为商务分析与决策、自然科学理论、人文地理等提供有效的技术支持

学位

网格聚类算法参数半自动化最优划分多密度梯度数据挖掘

基层工会思想工作面临的困境与解决对策

企业的基层工会组织是企业员工与企业沟通联系的桥梁,是企业的重要组成部分.本文分析了新形势下企业基层工会在思想工作方面所面对的新机遇与新挑战,并提出了几点基层工会思

期刊

基层工会思想工作困境解决

基于多目标粒子群优化算法的图像分割算法

图像分割是对图像进行一个预处理的过程，是图像处理的关键步骤，其分割结果将直接影响后期图像分析。传统的图像分割有边缘检测法、阈值分割法、区域分割法和聚类分割法。根据每

学位

多目标优化算法粒子群算法聚类算法图像分割边缘检测

活跃学生思维优化课堂教学

“教学有法,但无定法,贵在得法”.在教学中,我们应根据学生实际,教材特点,灵活运用故事、游戏、操作、情境等多种方法,激发学生的学习兴趣和强烈的求知欲,让学生变“要我学”

期刊

小学数学学生思维课堂教学

哥斯达黎加:近九成香蕉园受虫害影响

哥斯达黎加44 000 hm2香蕉种植园约90%遭到粉虱和介壳虫侵害,引起了种植户和政府高度重视。这两种害虫都是刺吸式昆虫,一般为害新长出的香蕉茎秆和叶片,一旦吸食果实,就容易

期刊

介壳虫粉虱植物病害进口农药产业界人士

聚类分析中基于投影的k均值算法

其他学术论文