论文部分内容阅读
由Vapnik等人建立的统计学习理论(Statistics Learning Theory,SLT),是一种小样本的机器学习理论,为机器学习问题提供了统一的框架。通过对学习一致收敛问题的讨论,SLT给出了学习机器推广能力的界,进而给出了不同于传统学习中经验风险最小化准则(Empirical Risk Minimization,ERM)的结构风险最小化准则(Structure Risk Minimization,SRM),并在此基础上给出了一种新的学习算法支持向量机(Support Vector Machine,SVM)。SVM基于SLT坚实、严谨的理论基础,比传统机器学习方法具有较好的学习性能和泛化能力。
在实际应用中,很多情况下我们并不是一次就可以拿到所有样本,需要学习的样本是分批到达的,这就是说原来学习好的分类器由于新增样本的到来而需要重新学习,也就是增量式学习。目前,很多优秀的算法应用在大规模样本的SVM训练中有着良好的表现,但它们并不能直接支持增量式学习。另一方面,经过多次的增量学习,历史样本集的数目越来越大,造成增量学习的时间过长和存储样本的空间过大。因此,我们必须将一些对分类没有影响或者影响小的样本淘汰掉,这就是在线学习。我们通过对样本在高维特征空间上的位置不同而造成对分类影响作用不同的特点分析,发现在加入数量不大(相对已有样本)的新样本时,样本对新分类器的影响主要由两个因素(样本到该类样本集的中心距离和样本到最优超平面的距离)决定。由于对大规模样本的训练,一般要采用分解算法,我们保留了原来的支持向量的拉格朗日乘子的优化值作为分解迭代的初始值,让初始值离优化值的距离靠近从而减少迭代次数,从而减少增量学习的时间。
本文通过上述分析,提出了一种基于β因子的历史样本淘汰制度的在线学习算法。通过对LICI标准数据测试集中的若干个测试样本集进行测试,并对测试所得的结果进行分析。结果表明:β因子的历史样本淘汰制度能有效地除去样本集中对分类无关的样本,在保持了分类精度和泛化能力的情况下,大大缩短了增量学习的训练时间。