论文部分内容阅读
SVM算法是建立在统计学习理论基础上的机器学习方法,该算法使用结构风险最小化原则替代经验风险最小化原则,克服了一些长期困扰其他模式识别方法的问题。SVM能较好地解决小样本、非线性、高维数和局部极小点等实际问题,对于比较复杂的非线性可分问题,SVM算法通过一个适当的非线性映射,将数据由原始特征空间映射到某个高维空间,使得数据在高维特征空间中近似线性可分,同时允许存在一定的误差,再用线性可分的方法在高维空间构造最优分类面。SVM使用核函数来替代样本在高维空间的点积运算,避免了维数灾难,降低了算法复杂度。由于SVM算法具有得天独厚的优势(完备的理论基础和较好的学习能力),使其成为当前模式识别领域研究的热点。
由于SVM算法在求解过程中需要求解二次规划问题,在处理非线性可分数据的时候,要计算和存储核矩阵,使得其在大规模数据集上的运行速度比较慢。为了提高SⅧ算法的运行速度,本文提出了一种基于聚类分析的SVM算法:在训练SVM分类器之前,可以先对训练样本进行聚类分析,得到若干簇,经过距离度量后保留比较靠近分类面的簇,丢弃别的簇,在尽量保留支持向量的前提下精简训练样本,用精简过的数据来训练SVM,提高SVM算法训练速度。实验结果表明,本文所提算法是可行的、有效的。