论文部分内容阅读
学习理论的核心问题是研究各种学习算法的一致性和学习率,前者是一种定性分析,而后者则是一种定量的分析。近几年来,随着对学习理论研究的逐步深入,各种常用算法的一致性基本都已建立,人们的研究重心已转向了更深层次的学习率问题上。无论是分类问题还是回归问题正则化方法都是普遍使用的一类学习算法。该类算法以统计学习理论的基本框架和函数逼近中的经典正则化理论为基础,是一种基于再生核Hilbert空间的正则化核方法,其中著名的例子包括支持向量机分类、支持向量机回归、正则化网络(正则化最小平方回归)等等。本文的主要工作就是对此类算法的推广误差进行分析,并由此得到算法的学习率。
首先,在数学上对支持向量机回归算法进行了分析。与经典的最小平方回归相比,支持向量机回归用ε-不敏感损失函数替代了二次损失函数,因而更具鲁棒性和稀疏性。但关于此算法的研究却差强人意,特别是至今尚未见一个针对此算法的显式学习率。本文借鉴了最近一些分析分类算法的方法,在一些现实的假设下,首次给出了支持向量机回归算法显式表达的学习率。
随后把上述分析推广到一类更广泛的回归算法上,借助于一个指导不等式,给出了此类回归算法的学习率。作为特例将所得结果应用到两种最常用的回归算法一支持向量机回归和最小平方回归上,改进了前面所得的关于支持向量机回归的学习率以及前人所得的关于最小平方回归的学习率。
最后,考虑了对分类算法的分析。众所周知正则化学习算法作为一种核方法,核的选取是至关重要的。作为最先被使用的核函数,多项式核可能也是核方法中最为常用的核。但相比另外一种常用核-Gaussian核,关于多项式核的分析却明显的滞后。虽然使用多项式核的支持向量机分类算法的一致性很早便得到了证明,但直到最近才有周定轩等人针对一元多项式核给出了一个学习率。而学习问题一向以“小样本、高维数”著称,所以无论是从理论上还是从应用上讲,多元的情形都应该是更有意义的。本文中研究了使用多元多项式核的一类正则化分类算法。利用Bernstein-Durrmeyer多项式,给出了此类算法的正则误差的估计,再利用标准的取样误差分析,得到了关于此类算法的显式学习率。从而彻底地解决了多项式核正则化分类算法的学习率问题。