论文部分内容阅读
目前,对于高维数据进行降维的变量选择方法研究已经成为文本挖掘、临床医学和遗传学等领域的一个重要课题。变量选择的方法分为Filter类、Wrapper类和Embedded类三种,Filter方法虽然简单而且计算效率高,但只是一种数据预处理方式;Wrapper方法则将分类模型作为变量选择的一个黑匣子,只是将模型的预测效果作为变量子集优劣的评判标准,而且变量子集搜索的计算量很大;而Embedded方法则将变量选择与模型估计融合到同一个目标函数中,通过其最优化同时实现变量筛选和分类模型的建立。由于Embedded方法本身特点所带来的优势,对于这种方法的研究已经吸引了大批学术专家的目光。 同时,基于SVM分类器的变量选择方法已经应用于多个领域,并取得不错的效果。这些方法包括SVM-RFE和Mixed Integer SVM等,SVM-RFE属于Wrapper类,虽然它有可以解决多分类问题中变量选择的拓展模型(OVOSVM-RFE和OVA SVM-RFE),但是它们本身有许多不可避免的缺陷;MixedInteger SVM虽然是Embedded类方法,但目前只能用于两分类问题。为此,本文的主要工作就是构建一种基于Embedded思想的多分类SVM变量选择方法。 本文通过将原始数据集的类别变量进行适当转换,构建出多分类问题的分类模型,再以此为基础提出了Embedded-SVM多分类变量选择方法的目标函数、模型的估计方法和算法,最后还对模型特点进行了评价。通过模拟得到的数据集,将Embedded-SVM多分类变量选择方法的变量选择成功率以及利用最优变量子集建立的模型分类预测效果与Wrapper类的OVO SVM-RFE多分类变量选择方法以及Filter类的基于信息增益的变量选择方法进行比较发现:Embedded-SVM多分类变量选择方法在绝大多数条件下,相比Wrapper类的OVO SVM-RFE多分类变量选择方法以及Filter类的基于信息增益的变量选择方法,都有更好的变量选择和分类效果,而且这种方法在数据集的特征发生变化时,也能表现得十分稳健。