聚类分析中基于投影的k均值算法

来源 :浙江大学 | 被引量 : 0次 | 上传用户:isaxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是机器学习领域内广泛被研究的知识领域,是将人工智能技术和数据库技术紧密的结合,让计算机能帮助人们从大数据量的数据库中智能地、自动地获取出有价值的知识模式和规律信息,以满足人们不同应用的需要。K均值算法作为聚类分析中应用极其广泛的一个算法,具有伸缩性好,效率高的优势。但是k均值算法这样的划分算法依赖k值的确定,初始聚类中心的选择以及不同样本对象条件下的相似度度量的选取。而且对于孤立点的影响很敏感,少数偏远孤立点就会造成很大影响。在运算效率方面对于大量高维数据,最大的阻碍在于欧氏距离定义下的距离计算。本文也提出了关于距离计算的效率改进和孤立点的分离。   针对k均值算法的各个不足之处,本文分别研究了其对应的改进算法。包括对于初始聚类中心选取的改进方法来进行初始中心点的选取,聚类中心和聚类均值点分离的方法来减少孤立点的干扰以及基于核函数的改进方法。对于效率提升方面提出了基于投影的改进方法,结合投影降维的理论对k均值算法进行改进,对所有待聚类的向量在选定的方向上计算投影距离,建立一个所有向量的投影距离的索引.在每次迭代重新分配点时进行一次投影距离的判断,排除投影距离相距过大的点,从而减少距离的计算次数。并将对于所有类都投影距离过大的点设置为孤立点.这样不仅提高了算法效率并且减少孤立点对于本身算法的影响。最后数据测试结果也显示效果不错。  
其他文献
自从我国小学开始实施新课程教学改革之后,大部分的英语教师都在为提高学生的英语成绩寻找方法.英语作为一门外语,大部分的小学生从小来说并不会有机会接触,因此在教学进行的
数论中的指数和,Kloosterman和,Guass和,Ramanujan和等和式都有紧密的联系.近年来,很多学者深入的研究了这些问题,并且获得了很多优秀的研究成果.本文运用简化剩余系,三角和,Dirichl
本文主要从数学上研究了无形体病的病原学和流行病学,并建立了相应的数学模型.我们分别考虑了具有Holling-II功能反应的三种群无形体病模型和具有Holling-II功能反应的两种群
随着经济的快速发展,我国石油化工行业也获得更大的发展空间,石油化工项目的规模也越来越大,效益也在不断的增加,因此对于工程项目的管理模式也提出了更高的要求.EPC总承包模
分布近似在概率论与数理统计中是一个重要的分支,它在统计学科研和实践中都是很重要的工具。Stein方法是一种很有用的可用于分布近似的方法。Stein方法可用于考察随机变量的
数据挖掘是从数量庞大的、随机出现的、客观存在的、不完全的并充满噪声的数据中提取和发现有价值的信息,从而为商务分析与决策、自然科学理论、人文地理等提供有效的技术支持
企业的基层工会组织是企业员工与企业沟通联系的桥梁,是企业的重要组成部分.本文分析了新形势下企业基层工会在思想工作方面所面对的新机遇与新挑战,并提出了几点基层工会思
图像分割是对图像进行一个预处理的过程,是图像处理的关键步骤,其分割结果将直接影响后期图像分析。传统的图像分割有边缘检测法、阈值分割法、区域分割法和聚类分割法。根据每
“教学有法,但无定法,贵在得法”.在教学中,我们应根据学生实际,教材特点,灵活运用故事、游戏、操作、情境等多种方法,激发学生的学习兴趣和强烈的求知欲,让学生变“要我学”
哥斯达黎加44 000 hm2香蕉种植园约90%遭到粉虱和介壳虫侵害,引起了种植户和政府高度重视。这两种害虫都是刺吸式昆虫,一般为害新长出的香蕉茎秆和叶片,一旦吸食果实,就容易