基于标记点的快速谱聚类算法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yaki84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
谱聚类算法是近年来机器学习和模式识别领域最重要也是最热门的基础算法之一。谱聚类算法将聚类问题转换为图的分割问题,通过对相应的拉普拉斯矩阵的特征向量进行聚类,找到对图的最优划分。凭借其良好的聚类结果和简单的实现细节,谱聚类算法越来越广泛地被研究人员运用在图像分割、人脸识别、语音分析等领域。然而由于在计算过程中需要维护一个大小与样本数量二次相关的拉普拉斯矩阵并对其进行特征值分解,谱聚类在处理大量样本时需要耗费过多的时间和内存空间。谱聚类性能上的缺陷限制了其从实验室走向工业化应用的步伐。本文分析了当前主流的谱聚类加速算法的优缺点,从改进谱聚类在大数据集下的运行性能的角度出发,根据稀疏编码理论,提出了一种基于标记点和子空间迭代的快速谱聚类算法。本文提出的算法在普通样本与随机抽取的标记样本之间建立相似度关系,利用稀疏编码的方式将这种关系重新定义为样本的特征,并将该特征存储在稀疏的扁平矩阵内。该方法继而结合子空间迭代算法,能够在不生成拉普拉斯矩阵的前提下计算出拉普拉斯矩阵的主要特征向量。理论分析和实验显示,本文提出的算法能够在保证甚至改进聚类准确率的前提下达到与样本数量线性相关的时间复杂度和空间复杂度,在多个数据集上能够比目前主流的谱聚类加速算法更快地得到更高准确率的结果。本文还对该算法在图像分割领域进行了实验,并对算法未来进一步的发展进行了讨论。
其他文献
信息系统风险评估是信息系统安全保障机制建立过程中的一种评价方法,是建立完整安全体系的一个重要环节,其结果为信息系统风险管理和决策提供依据,对提高信息系统安全防护能力,保
随着工农业生产发展的需要和人们生活质量的提高,气象条件的变化已越来越多地影响到人们的生产和生活而备受关注,能否及时、广泛、正确地提供气象预报、传递和普及气象知识,从而
在当今大数据时代的环境下,互联网上的数据量愈发庞大,且其增长速率还有着不断加快的趋势。高速增长的数据量催生了各种各样以数据为中心的应用,而这些应用在丰富了互联网用
该课题对嵌入式GUI的研制作了一定探索.首先,完成嵌入式GUI的需求分析和总体设计.通过研究应用领域,尤其是移动通信终端领域,来确定系统边界,明确系统责任;在总体上,从可裁减
随着IP网络及其关联技术的发展,Everything over IP已经不再是一句口号,而是不争的事实。从上世纪90年代VOIP的初步尝试,到今天视频会议、IPTV,甚至移动业务,无不已经或者即将具备
相对许多行业而言,信息处理技术正在飞速发展。随着计算机硬件技术的发展,软件技术也是日新月异。从目前的情况来看,电信企业已经建立了相对完善的OLTP(联机事务处理)系统。随着
随着下一代网络技术的发展,传统PSTN网络上的语音业务将逐步迁移到IP网络上。VoIP技术为基于IP网络的语音通信提供了强大而有效的手段,以该技术为基础的语音通信将成为下一代
本文为多智能体系统定义了一个称之为知识结构的逻辑框架,来进行智能体的知识推理.在知识推理过程中,使用”变量忘记”(VariableForgetting)来作为基本操作,并证明算法上可以用
当前,社交媒体,如Twitter1, Facebook2,新浪微博3等,越来越融入现代人的生活,成为人们生活中的一部分。微博不仅仅是用来发布信息,很多时候也用来寻求帮助或寻找信息,越来越
随着以通讯、互联网为主的科学技术的发展,信息的获取和利用越来越方便和快捷,使得信息技术正在静悄悄改变我们的生活,改变我们的世界。但是,海量信息的出现也使得人们越来越