论文部分内容阅读
作为机器学习中一个经典的分类算法,支持向量机一直深受数据科学家们的喜爱。当给定训练样本集,支持向量机通过最大化最小间隔思想构建优化问题,得到最佳的决策分界面,从而实现对新样本的类别预测。无论对于线性可分数据或非线性可分数据,传统的支持向量机都能高效地解决二分类问题,同时保证模型的过拟合程度在可以接受和控制的范围。其不仅有直观的几何解释,而且具有统计学习理论的夯实基础和简洁的数学形式。这些优势使得支持向量机方法从1995年被提出直至现在,一直倍受青睐,并在文本分类、图像分析、生物信息、信息安全、语音识别及时间序列预测等领域均有成功应用。然而现实中的数据更为复杂多样,一方面数据的类别往往多于两个,成对分类、一类对余类及Crammer-Singer等多分类支持向量机应用而生,近年来不乏有优秀的多分类支持向量机的衍生算法涌现;另一方面,某些领域需要更加注重协变量之间的关系对模型的影响,有些领域的数据中可能会存在相对特殊的变量,文中称之为主变量(targeted variable)。普通的常系数模型不能很好地提取主变量对其他协变量的影响,所以需要建立相应的变系数模型,以保持主变量对最终分类结果的贡献。例如医学数据中,可以视年龄为主变量,对于不同的年龄取值,同一个特征变量对最终的分类的影响大小也将随年龄的不同而变化。 本文同时考虑上述两个方面,针对含有主变量影响的多类别数据集,提出了一个新的多分类模型,基于角度的变系数多分类支持向量机(TLAMSVM)。它从两个角度对一般的二分类支持向量机进行了推广。首先在众多多分类方法中选择了基于角度的间隔最大分类框架作为本文模型多分类推广的基础,该框架在理论性质和数值实验中均有较好表现,而且相比其他的直接多分类推广方法具有更好的几何解释能力。其次本文的基于角度的变系数多分类支持向量机的损失函数使用了损失函数的凸组合形式,保证了模型的Fisher一致性。针对主变量对模型的影响,模型在这一角度进行推广时引入了变系数模型的思想,通过选择不同的局部光滑核函数对主变量取值不同的样本进行加权处理,构建有效的依赖主变量的分类规则。这使得训练后的模型对新样本做预测时,更加关注样本的差异性,并且可以给出多角度的分析结果。 文章依次介绍了本文提出的基于角度的变系数多分类支持向量机的三个基础内容:传统支持向量机,基于角度的间隔最大分类框架和定向局部核加权方法。然后展示了本文模型的详细内容和对偶形式优化问题的推导过程,以及使用坐标下降法求解优化问题的计算步骤。在后面的章节,分别使用模拟数据集和真实数据集进行模型分类效果的验证,通过数值实验结果可以得出结论,相比没有使用变系数思想或基于角度的多分类框架的多分类支持向量机,本文提出的基于角度的变系数多分类支持向量机在含有主变量的多类别数据集上具有更好的预测效果。并且对真实数据集的样本可以得出更为细致的分析,在实际应用中具有较大意义。