全局非线性降维算法C-Isomap的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yuxiguang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前人类社会日益深入到信息时代,信息量以级数增长。因此,在进行科学研究的过程中,科学家们经常要处理大量的高维数据,比如全局气候模式,恒星光谱,自然语言,语音波的格式,面部数据分析,还有人类基因分布。这些数据都有大量的冗余和其相关性中隐藏着重要的关系,这样他们可能就会碰到降维的问题,降维的目的就是找出隐藏在他们所观察到高维数据中有意义的低维结构。 目前降维算法大致可以分为两类,一类是线性的方法,如主成分分析法(PCA)和经典多维尺度法(MDS),另一类是非线性的方法,如等距映射法(Isomap)、局部线性嵌入法(LLE)和自组织等距嵌入法(SIE)。 本文首先对几种降维算法进行了研究和分析。经典的降维算法,如PCA和MDS,实现简单,可以确保发现处于高维向量空间的线性子空间上的数据集的真实几何结构。但是这类算法的线性本质使其无法揭示复杂的非线性流形。LLE是一种无监督的学习算法,揭示非线性流形的全局结构。LLE使用一种局域对称和线性重构的方法,将输入空间的点集映射为一个单一低维的全局坐标系,并保持点的邻域关系。SIE利用点集的距离分布作为等距约束条件,通过适当选取保持局域距离分布的局域等距映象,在概率意义上强迫出全局等距嵌入映象。 然后文章重点研究和分析了Isomap算法的优点、缺点、应用、发展。Isomap算法在处理平滑的连续流形时能正确的反映出有意义的嵌入结构,但是其对于一些有局部扭曲和不均匀采样的流形就难以得到好的结果。特别地,短路现象的存在会导致Isomap算法崩溃。针对Isomap算法这种缺点,本文提出一种解决方案:C-Isomap(C1ustering-Isomap)。这个算法应用聚类算法对采样点进行聚类,这样数据点相当于被标上了分类标签,然后我们就可以应用核函数来对不同类或者同类的点之间距离进行优化,使得类内点之间的距离相对更近,而类之间的点的距离就更远一点。这样我们就在求点的邻域时尽可能阻止短路现象发生。 为了验证算法的有效性,文章最后使用Swiss Roll和S-CuEVe两个测试数据对算法进行了实验,相对Isomap和s-Isomalp两个算法来说,在采样点数比较少或者处理稀疏矩阵的时候本算法有着明显好的降维效果,同样在处理密集数据点的时候仍然有较好的重构质量。
其他文献
审计系统是安全操作系统的重要组成部分,系统中与安全相关的活动均应进行审计。基于内核的审计系统具有无法旁路和强制记录的性质,能够全面而详实的记录系统中各种操作的相关信
作为信息科学与传统汉语言文字学的交叉课题,数字化《说文》学研究有着两方面的意义:一是希望为传统汉语言文字学提供现代人易于理解与接受的数字化研究方式,达到继承与发展并重
软件质量和生产率的高低极大地取决于生产过程的好坏。软件过程技术通过定义、运作、监控、度量过程模型,对实际的软件过程提供指导和控制,已经成为软件工程领域的研究重点之一
随着Internet的发展,使得基于B/S结构的Web应用模式日益流行。伴随着在线信息和服务可用性的提升,以及基于Web的攻击和破坏的增长,安全风险达到了前所未有的高度。由于Web应用程
本文首先从地址编码的应用需求入手,指出了中文地址编码的难点所在,并评述了国内外相关工作的进展。其次介绍了中文地址编码的三大核心技术,即中文地址模型、编码方案和地址解析
异构数据库集成应用系统作为数据库领域的研究热点和难点课题,在国内外的学术界和工业都引起了广泛的关注。最近十年来,各种网络中可供利用的信息总量以惊人的速率增长。然而,这
形式化安全策略模型是保障数据库管理系统DBMS安全的关键技术。本文研究并提出了一个基于数据库管理系统PostgreSQL的安全增强DBMS的形式化安全策略模型。该模型分别由多级数
为了更好的测试分布式文件系统的性能,用户及研究人员需要研究或选用有效的测试工具。通过调研发现,目前针对分布式文件系统的性能测试研究及相应的性能测试工具较少,且已有的测
本文回顾了视频监控系统发展历史过程,简要分析对比了视频监控系统发展的各个阶段的特点以及优缺点,根据当前视频技术的发展现状以及网络技术的发展和网络基础设施的普及与完善
在对多集群系统进行认真考察后,本文提出在多集群系统中有关作业管理的核心原则:在实际的多集群系统中进行作业管理时,应当用作业的计算资源需求,而非运行时间来表述作业的特征以