论文部分内容阅读
机器学习根据自然现象或专门实验获得的数据推断事物的规律。统计学习理论假设观测的样本数据服从一定的未知分布,在不估计分布规律的前提下综合研究基于训练样本和基于分布的目标函数。核函数方法通过非线性映射在高维特征空间用线性方法解决非线性问题,同时避免了显式地描述这种非线性映射过程。可能近似正确学习沿袭统计学习理论对结构风险控制的思路,为Boosting等集成学习方法找到了理论依据。核函数方法迅速被主分量分析等其它学习机器借鉴。总结统计学习理论以及支持向量机的特点不难发现,对结构风险的有效控制和核函数方法的使用是支持向量机取得成功的决定性因素。本文以统计学习理论和集成学习为指导,研究了基于核函数方法的学习机器如支持向量机、核主分量分析、核主角等机器学习方法的改进算法以及集成方法。论文主要工作概括如下:1.介绍了机器学习的概念,回顾了统计学习理论和支持向量机取得的成就。可能近似正确学习框架被看成是统计学习理论的继续发展,能够为Boosting等学习机器找到理论依据,因此将其作为独立的研究集成学习的理论予以了介绍。为了方便论文的展开,第一章还介绍了核函数的基础知识以及主分量分析、典型相关分析、核主角等机器学习方法,给出了论文的结构图。2.针对支持向量机的几何训练算法,提出了无关最优向量和可能支持向量的概念和判别算法。改进的几何训练算法首先将训练样本分为两类:无关最优向量类和可能支持向量类。在线性可分情形下,无关最优向量不影响支持向量机的训练结果,因此可以从训练样本中剔除,这样就简化了支持向量机的求解;在线性不可分情形下,利用软凸包概念将不可分数据集转换为可分数据集然后求解,同样能够大幅减少训练数据从而简化支持向量机的训练过程。3.针对给定的大规模数据集的回归和分类问题,提出了一种稀疏最小二乘支持向量机。该方法先把样本集映射到无限维再生核希尔伯特空间中,然后张成再生空间的一个线性子空间。在无限维特征空间中可以求出子空间的一组近似基。用近似基线性表示子空间中的元素,能缩小核矩阵的维数,进而通过求解规模相对较小的线性方程组获得稀疏最小二乘支持向量机。4.继续针对给定的大规模数据集的分类和回归问题,提出了集成稀疏最小二乘支持向量机的两种方法。这两种方法都在无限维再生核希尔伯特空间中求样本集的若干组近似基,然后以每组近似基为解空间求解最小二乘支持向量机,最后进行集成。其中一种是并行算法,一种是串行算法。集成稀疏最小二乘支持向量机具有鲁棒性。5.提出了一种集成稀疏核主分量分析的方法。集成稀疏核主分量分析通过再生核希尔伯特空间中的线性分析,获取若干组近似基,以每一组近似基为解空间,分别提取样本在再生核希尔伯特空间的特征向量和特征值,最后进行平均集成。将其用于Tennessee-Eastman过程的故障检测时,实验结果显示其性能优于普通的核主分量分析法。6.提出了一种稀疏核主角(SKPA)的集成方法。与核主分量分析结合后,集成稀疏核主角可以用于Tennessee-Eastman过程的故障类型识别。很少有学习机器能够实现这一功能。最后对全文进行了总结和展望。