Embedded-SVM多分类变量选择模型研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:liuhu986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,对于高维数据进行降维的变量选择方法研究已经成为文本挖掘、临床医学和遗传学等领域的一个重要课题。变量选择的方法分为Filter类、Wrapper类和Embedded类三种,Filter方法虽然简单而且计算效率高,但只是一种数据预处理方式;Wrapper方法则将分类模型作为变量选择的一个黑匣子,只是将模型的预测效果作为变量子集优劣的评判标准,而且变量子集搜索的计算量很大;而Embedded方法则将变量选择与模型估计融合到同一个目标函数中,通过其最优化同时实现变量筛选和分类模型的建立。由于Embedded方法本身特点所带来的优势,对于这种方法的研究已经吸引了大批学术专家的目光。  同时,基于SVM分类器的变量选择方法已经应用于多个领域,并取得不错的效果。这些方法包括SVM-RFE和Mixed Integer SVM等,SVM-RFE属于Wrapper类,虽然它有可以解决多分类问题中变量选择的拓展模型(OVOSVM-RFE和OVA SVM-RFE),但是它们本身有许多不可避免的缺陷;MixedInteger SVM虽然是Embedded类方法,但目前只能用于两分类问题。为此,本文的主要工作就是构建一种基于Embedded思想的多分类SVM变量选择方法。  本文通过将原始数据集的类别变量进行适当转换,构建出多分类问题的分类模型,再以此为基础提出了Embedded-SVM多分类变量选择方法的目标函数、模型的估计方法和算法,最后还对模型特点进行了评价。通过模拟得到的数据集,将Embedded-SVM多分类变量选择方法的变量选择成功率以及利用最优变量子集建立的模型分类预测效果与Wrapper类的OVO SVM-RFE多分类变量选择方法以及Filter类的基于信息增益的变量选择方法进行比较发现:Embedded-SVM多分类变量选择方法在绝大多数条件下,相比Wrapper类的OVO SVM-RFE多分类变量选择方法以及Filter类的基于信息增益的变量选择方法,都有更好的变量选择和分类效果,而且这种方法在数据集的特征发生变化时,也能表现得十分稳健。
其他文献
自改革开放以来,我国在各方面都得到了长足的发展。但是由于较为粗放型的发展方式,资源利用不太合理,一些地区的经济发展已经远远超过了环境的自我更新能力,很多环境问题越来越多
随着世界经济一体化发展和各国经济的不断开放,金融市场在经济发展中已占据了举足轻重的地位。目前,我国金融系统银行业所占资产比例大约为93%,银行业在金融系统中具有核心地位。
在科学技术飞速发展的当今社会,公民的科学素养水平高低直接关系到国家和民族的发展前途,提高公民的科学素养是一项长期而紧迫的任务。科学素养包括科学知识、科学能力和科学
本文主要用非参数估计方法进行期权定价,提出了估计股票的静态价格密度函数(SPD)的新方法。本文提出了估计SPD的三步法,在这步法中运用了非参数估计方法。   本文中主要是对
我国曾经是世界上分配最公平的国家之一,但随着市场化改革逐步深化,经济增长的成果越来越难以被所有人平均分享。贫富差距问题越来越严重,目前我国基尼系数已急逼0.5,表明收入分
本文以不同地区省份的调查问卷为基础,对农户的需求进行实证分析,探索解决农村金融问题的途径。不同地区的农户由于收入来源、资金用途以及融资的数量和偏好均有较大不同,充分了
众所周知,互联网金融是当下的热门话题,各大互联网公司都希冀在这块新的广袤大地上获取自己的一片领地,而传统商业企业也不甘落后,纷纷来拼抢新的发展机会。在此背景下,互联网支付
随着中国经济强劲的发展,中国报业出现了持续的繁荣景象,但同时也形成了激烈的竞争态势,各报社在经营管理、广告、发行、印刷及多种经营等方面都作了大量有益的探索.面向新世
银行理财产品作为利率市场化的产物,在利率市场化进程中得到了迅速的发展,其作为银行反“脱媒”的重要手段为市场提供了与存款竞争的金融产品,是对存款利率上限的突破,而存款利
近年来,随着我国市场经济的快速发展,人们可以投资的财富在不断增加,特别是在后危机时代,我国的个人财富相对发达国家加速膨胀。传统的理财观念和管理方式正在受到冲击,国际上先进