论文部分内容阅读
降维是一种重要的高维数据处理技术。它将高维空间中的数据,根据某种假设和方法,转化为低维空间中的表示点。其目的是在减少数据的维数的同时,也减少或者除去次要或冗余的数据信息,并且保留或增强有意义的数据信息。流形学习是2000年首先在美国《科学》上提出,基于数据流形分布假设的一种新型降维方法。流形学习方法能够较好地发现和保持数据分布的非线性结构信息,具有传统线性降维方法所无可比拟的优势,因此它获得了越来越多的重视。许多研究者提出了流形学习在模式识别,数据挖掘,以及计算机视觉等领域的应用方法,获得了很有前景的应用成果。本论文深入研究了具有代表性的流形学习算法,分析了各种流形学习算法的优缺点,并且针对流形学习的若干关键问题进行了深入的探索和改进。本文的主要工作包括:
1、新的数据集本质维数估计算法。对于所有流形学习算法来说,数据集的本质维数是一个关键的参数。没有正确的本质维数作为参数,流形学习方法无法给出正确的低维表示。为了解决这个问题,我们提出了一种新的本质维数估计算法,切球算法。同以前的方法相比较,该算法具有很强的抗噪声和抗离群值点的能力。并且能够给出数据集维数的一个整数估计结果,因此维数估计值可以直接赋给流形学习算法。
2、多流形学习。对现实世界数据进行处理时,需要对多类数据进行降维是经常遇到的问题。传统的流形学习算法假设数据属于同一类的并且均匀地分布在单个流形上。因此当数据是多类的或者分布在多个子流形上时,传统的流形学习算法会失效。本论文提出了基于Isomap的多流形学习算法框架。在该框架下,我们设计了一个基于Isomap算法的多流形学习算法。该算法能够同时较好地保持多个数据流形之间和每个数据流形内部的测地距离关系。从而克服了传统Isomap算法不能很好地处理多类多流形数据的缺陷。
3、降维的正则化框架理论。根据不同的思路,研究者们提出了各种各样的降维(包括流形学习)算法。研究这些降维算法的共同特征成为一个亟待解决的问题。基于正则化理论,我们首先提出了降维的正则化的框架。该框架提供了一个用于理解大多数降维算法的平台。不仅如此,我们还在该框架下提出了新的流形学习算法。新提出的流形学习算法能够提供带有显式表达的非线性降维映射,在半监督的流形学习方面有着很强的优势。
4、基于数据稀疏化表示的半监督分类算法。数据的稀疏化表示本质上是数据在少数非欧坐标轴上面的线性表示系数,也称之为稀疏编码。因此可以理解为数据降维的一种特殊形式。本文首先提出将数据的稀疏编码代入到降维的正则化学习框架中,从而设计出了一种用于图像内容的分类器算法。论文中提供了广泛和深入的实验,证明了该分类器拥有极高的分类准确率和抗噪声能力。