论文部分内容阅读
统计学习理论是基于有限训练样本情况下的机器学习理论,通过控制学习机器的复杂度从而实现对学习机器推广能力的控制。支持向量机是基于统计学习理论的一种新的机器学习方法,它应用统计学习理论中的结构风险最小化原则,采用了核技术,巧妙地解决了“维数灾难”问题,比传统的方法表现出更好的理论优势;研究表明,支持向量机具有良好的泛化性能和推广能力,由于其出色的学习性能已经在模式识别、回归估计、时间序列预测等多方面得到成功应用,成为机器学习领域新的研究热点。
基于分类问题的支持向量机算法的应用已经得到了广泛的研究和发展,而对回归方面的研究尚需要进一步深入。支持向量机回归作为一种新的回归估计方法,仍然存在着很多问题有待于解决:如算法的学习本质上是一个二次规划问题的求解过程,传统的优化技术在计算中需要存储核函数矩阵,消耗大量内存,仅仅适用于小样本的回归预测;对于大规模样本的回归问题,很多改进的学习算法速度仍然达不到应用的要求,回归估计和预测的精度也需要进一步提高;另外,支持向量机回归算法中的核参数和自由参数,对算法的回归性能有重要的影响,然而要找到最合适的模型和参数选择则比较困难,仍然没有找到合适的方法来选择模型参数的最佳组合;这些问题都限制了支持向量机回归应用领域的扩展。
针对支持向量机回归问题的一些不足之处,本文对支持向量机回归算法及其参数选择问题进行了研究,展开了以下工作:
(1)首先对本文的研究背景进行了概述,阐明了支持向量机分类和回归问题的研究意义;对支持向量机学习和训练算法、模型和参数选择的相关研究现状进行了总结,并讨论了其存在的若干问题。
(2)其次研究了支持向量机基本理论,重点讨论了支持向量机回归的基本问题和核函数的选择,针对核函数及其参数选择问题,在理论分析的基础上进行了实验,分析了不同核函数对回归预测的性能影响,表明高斯径向基核函数对解决回归问题具有良好的性能。
(3)支持向量机回归的快速训练算法和改进的支持向量机回归算法的研究。
本文第三章研究了支持向量机的快速训练算法和各种新的回归算法,并对其进行了分析和比较。针对支持向量机解决大规模样本回归问题时训练时间长、占用内存大的缺点,引入了一种新的基于L2范数误差的软间隔支持向量机回归算法,采用基于SMO算法的思想来求解回归对偶问题,推导出了新的停机条件和基于二阶导数信息的工作集选择准则,该算法是一种快速的支持向量机回归算法,简称为“FL2-SVR”,算法的求解过程简化了KKT条件,采用二阶导数信息的工作集选择和优化方法大大加快了目标函数的收敛性,因此提高了SVM回归的运算速度。
通过在不同的数据集上的实验结果,表明了FL2-SVR算法是一种快速的回归算法,并且具有良好的预测性能;在处理较大规模样本时,与传统的SVM回归算法相比,在保证预测精度的情况下,大大缩短了支持向量机学习和训练的时间,对于提高支持向量机在大规模回归数据中的应用具有重要的意义。
(4)支持向量机回归的模型参数选择和优化的研究及应用。
模型选择是支持向量机一个重要的研究方向,核函数以及参数的选择都对支持向量机回归模型的训练速度和预测精度至关重要。不同的参数设置对支持向量机回归的性能有很大的影响,在训练前需要事先确定回归模型的参数,如核半径σ,和惩罚参数C和不敏感损失因子等,这些参数很难通过先验知识来确定。因此,支持向量机回归的参数选择和优化仍然是难以解决的难题。智能优化技术则为支持向量机参数优化问题提提供了良好的解决方案;其中差分演化算法是一种新的的高度并行、自适应的优化搜索算法,该算法有更好的鲁棒性和更快全局搜索能力。
本文第四章首先通过实验分析了支持向量机回归参数对模型的性能影响,对差分演化算法优化支持向量机参数的方法进行了尝试性的研究,提出了一种基于差分演化优化支持向量机回归参数的算法“DE-SVR”;在标准数据集上的进行了应用研究,结果表明该算法能够获得比基于遗传算法的SVR参数优化方法和传统参数选择方法更好的回归性能。表现在:DE-SVR算法的收敛速度明显快于GA-SVR算法,得到的SVR模型具有更高的预测精度;同时,其参数搜索的速度比传统的穷举搜索法效率更高,回归预测的精度可与其相比。因此,本文提出的基于差分演化的参数优化算法是一种有效的选择支持向量机回归参数的新方法。
最后对本文的主要工作进行了总结,得出了重要结论,并分析本文研究的不足之处,对今后关于支持向量机回归方面的研究工作进行了展望。