论文部分内容阅读
统计学习理论(Statistical Learning Theory,STL)为系统地研究有限样本情况下的机器学习问题提供了一套比较完整的理论体系。支持向量机(Support VectorMachine,SVM)是在该理论体系下产生的一种新的机器学习方法,它能较好地解决小样本、非线性、过学习、维数灾难和局部极小等问题,具有很强的泛化能力。支持向量机目前已经广泛地应用于模式识别、回归估计、概率密度估计等各个领域。不仅如此,支持向量机的出现推动了基于核的学习方法(Kernel-based LearningMethods)的迅速发展,该方法使得研究人员能够高效地分析非线性关系,而这种高效率原先只有线性算法才能得到。目前,以支持向量机为主要代表的核方法是机器学习领域研究的焦点课题之一。众所周知,支持向量机的性能主要取决于两个因素:(ⅰ)核函数的选择;(ⅱ)惩罚系数(正则化参数)C的选择。对于具体的问题,如何确定SVM中的核函数与惩罚系数就是所谓的模型选择问题。模型选择,尤其是核函数的选择是支持向量机研究的中心内容之一。本文针对模型选择问题,特别是核函数的选择问题进行了较为深入的研究,其中主要的工作和贡献如下:1.系统地归纳总结了统计学习理论、核函数特征空间和支持向量机的有关理论与算法。这些内容是本文工作的基础,作者力求在介绍这些内容时尽量做到简洁但又不失完整与系统性;同时在许多内容的叙述中也融入了作者自己学习的一些体会。2.研究了SVM参数的基本语义,指出数据集中的不同特征和不同样本对分类结果的影响可以分别由核参数和惩罚系数来刻画,从而样本重要性和特征重要性的考察可以归结到SVM的模型选择问题来研究。在对样本加权SVM模型(例如模糊SVM)分析的基础上,提出了特征加权SVM模型,即FWSVM。FWSVM本质上就是SVM与特征加权的结合,本文将特征加权引入到核函数的构造中,从而可以从核函数的角度来研究特征加权对SVM分类性能的影响。理论分析和数值实验的结果均表明,FWSVM比标准的SVM的泛化能力要好。3.在系统归纳总结SVM模型选择、尤其是核函数参数选择的常用方法(例如交叉验证技术、最小化LOO误差及其上界、优化核评估标准)之后,进一步研究了核极化的几何意义,指出高的核极化值意味着同类的数据点相互靠近而异类的数据点则相互远离,并提出了一种基于优化核极化的广义Gaussian核的参数选择算法KPG。和优化后的标准Gaussian核相比,使用优化后的广义Gaussian核的SVM具有更好的泛化能力。此外,提出了KPG算法的一种变体,即KPFS算法,并通过实验初步验证了KPFS用于SVM特征选择的有效性。4.在局部Fisher判别分析算法的启发下,对存在局部结构信息条件下的核评估标准问题进行了深入地讨论,指出目前常用的核评估标准都没有考虑同类数据的局部结构信息对分类性能的影响,这种“全局性”的评估标准有可能会限制增强数据可分性的自由度。基于这个缺陷,提出了一个“局部化”的核评估标准,即局部核极化。局部核极化通过引入亲和系数在一定程度上保持了同类数据的局部结构信息,能够进一步增强异类数据之间的可分性。该标准的有效性通过UCI数据集上的实验得到了充分的验证。