论文部分内容阅读
支持向量机是近三十年刚刚崛起并被广泛应用的学习算法,以处理小样本数据与解决非线性不可分问题而被广泛应用于各个领域,是一基于相似关系准则的核学习算法。同时支持向量机相较于其他方法具备坚实的理论基础。支持向量机通过核函数方法计算出输入空间数据间的内积或距离关系,建立两两数据间的相似关系,使得线性不可分的原始空间数据转变为数据间关系并具有一定可分性的高维数据。利用核函数得到的高维数据空间本身是一种表达数据间的相似度量特性的关系矩阵,故该矩阵可能存在线性可分的特性。支持向量机在预测输入数据的标签时,是通过统计学理论针对测试样本与训练样本的相似特性进行的预测分析。因此,如何构造一个恰当的核函数对于支持向量预测准确率有着决定性作用。核函数是表达原始空间数据存在的空间关系与度量特性。核函数是调节数据间相似度量关系的函数,通过核函数表达数据间相似度量关系进而增大数据的可分性,因此分类预测结果的优劣在于核函数。不同的数据间的数据关系有不同的特性,例如:线性、高斯型、超球体和抛物线等,因而数据间的特性可能存在接近上述曲线的情形,然而这些函数并不能恰当的描绘数据的特性。因此,在实验操作中,曲线特性与数据特性的契合点很难把握。同时不同数据特征变化幅度是不同的,但数据特征间对数据标签的影响程度大小不一。因此本文针对数据不同特征间对数据标签的影响转化为特征间的权重关系,以及数据特性曲线与核函数曲线的契合度进行综合分析,并基于样本特征建立适合数据的核函数算法。本文的主要研究内容:1.支持向量机理论学习。通过支持向量机的发展与理论推导引出当下支持向量机的重中之重——核函数。针对核函数从定义、性质、常用核函数、多核核函数以及核函数的曲线特性进行描述,并从中发现核函数的本质,调节数据将间的相似度量关系。为之后的研究做铺垫。2.针对数据特征间存在一定的差异性,不同的特征对数据标签的确定影响存在差异,简单的归一化处理并不能处理好特征间存在的差异性。通过建立空间重叠率方法,计算不同特征对数据标签的区分度,并利用信息熵对不同的数据特征进行加权。为了更好地体现数据的可分性调节不同类数据的差异性,加大相似度量间的稀疏性,在原有L范数的基础上引入L1范数,进一步加大同类数据的紧密性与异类数据间的稀疏性,进而达到线性可分的目的,减少了异类数据间的交叉区间。3.在实际问题中数据间的相似度量关系并不是固定的曲线形式,不同数据的复杂程度千差万别,但是大多数数据相对是比较复杂的,针对复杂数据简单的由初等函数确定的核函数并不能满足数据的复杂性。本文利用复杂数据通过插值的方法的建立核函数,在众多插值函数中,以分形插值的复杂程度可控性比较高,并且复杂程度比较高,能够满足多数数据的需求。本文依据数据间相似度量特性与数据标签的关系建立迭代函数系统,进一步确定对应数据的核函数。并通过实验的方法描述了核函数与数据间的契合性问题。该方法大大的增加了数据与核函数的匹配性,并充分发挥了数据潜在信息的主导作用。利用UCI数据进行试验仿真,论证上述方法中特征间的不同区分度,并验证了上述方法充分发挥了数据中存在的潜在信息在核函数中作用,以及上述方法的可行性。