基于稀疏学习的多不定核特征选择算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:aegon2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择是指从原始特征中选择出一些最有效特征以降低数据集维度的过程,其能够降低模型复杂度,减少过拟合的风险。近年来,关于特征选择的算法研究有很多,其中多核学习特征选择(Multiple Kernel Learning for Feature Selection,MKL-FS)算法利用核函数去刻画特征的复杂性质,在线性和非线性特征选择算法中表现都比较突出。但是,MKL-FS算法存在两个局限性:(1)核函数的选择不够丰富;(2)特征选择的结果不够稀疏。一方面,MKL-FS算法要求核函数满足正定性的约束,其一定程度上约束了核函数丰富的表达能力。最新研究表明,不定核能够更好地刻画数据之间的关系,在许多实际应用中取得了比正定核更好的效果。但是,由于不定核的非凸性,现有的MKL-FS算法通常无法适用,目前相关的研究也比较少。另一方面,MKL-FS算法通常使用l1范数来得到稀疏的核组合系数。但是l1范数仅仅是l0范数的一种凸近似,有时并不能得到l0范数正则化问题的理想解,从而导致精度损失。而l0范数的优化问题是NP-hard,因此许多线性特征选择方法利用l0范数的各种非凸近似来替代l0范数,并且取得了良好的效果。但是目前l0范数的各种非凸近似在非线性模型中的应用较少。本文将从这两方面着手,对MKL-FS算法进行研究和改进,研究成果总结如下:1)针对MKL-FS算法局限于使用正定核的问题,本文提出了一种基于l1范数的多不定核特征选择算法(Multiple Indefinite Kernel Learning for Feature Selection,l1-MIK),该算法建立于不定核支持向量机(Indefinite Kernel Support Vector Machine,IKSVM)的主问题形式,对每一个特征都用一个不定核进行刻画,利用l1范数对核组合系数进行约束来自动选择特征。为了求解该算法中的非凸优化模型,进而提出了一种两阶段式的算法来分别优化IKSVM系数和核组合系数。其中,IKSVM的非凸问题被重构为凸差规划问题,利用凸差算法进行求解;核组合系数的优化问题用投影梯度法求解。为了进一步推广到大规模问题,本文采用一种leverage score方法对大规模数据集进行采样,并将l1-MIK算法扩展到多类分类的场景。最后,在实际数据集上验证了所提算法的有效性。2)针对MKL-FS算法局限于使用l1范数进行特征选择的问题,本文进一步提出一种基于l0范数的多不定核特征选择算法(l0-MIK),利用l0范数的非凸近似来对核组合系数进行约束,并自动选择特征。l0-MIK建立于IKSVM的主问题形式,并且也是利用两阶段式算法分别求解IKSVM系数和核组合系数。其中,IKSVM的非凸问题和l0范数的非凸问题分别被重构为凸差规划问题,利用凸差算法进行求解。大量实验表明,l0-MIK算法在分类精度和特征的稀疏性方面,都要优于现有的MKL-FS算法和l0范数的线性特征选择算法。
其他文献
近年来,随着中国城市化和工业化进程的加快,大气污染的状况也越来越严重,对人体健康造成了极大的危害,同时作为罪魁祸首的PM2.5也受到了人们越来越多的关注。本研究采集山西
膜结构的裁剪分析是膜结构设计中的关键步骤,决定了结构实际成型后的形态。由于膜结构曲面不可展开的特性,裁剪分析中必然存在误差,这会导致结构成型后的实际形态与通过找形
随着工业发展和科技进步,气体分离技术受到学术界和工业上的广泛关注。传统的气体分离技术(如深冷分离、变压吸附等)常受制于能耗高、操作复杂且投资成本大等缺点。膜分离技术,
随着网络和多媒体技术的飞速发展,海量的信息数据呈爆炸式增长,信息检索已经成为国内外的热门研究方向之一。有效的索引方法是提升大规模数据检索性能的关键。研究者们已经对
目的:探究表面活性蛋白A(surfactant protein A,SP-A)基因多态性与变应性鼻炎变应原特异性免疫治疗(allergen specific immunotheraphy,SIT)治疗效果的关联,以期加深对SIT治疗机制的了解,同时研究结果将提供在基因水平上对该疾病进行分型的可能,并且可以根据个体对药物的敏感度,制定个体化治疗方式,从而提高治疗效果。方法:收集接受皮下特异性免疫治疗
大视场高光谱成像技术在目标识别、空间成像和无损检测等诸多领域具有广泛的应用前景,已成为现阶段的研究热点。随着对高光谱成像质量、高分辨成像能力需求的不断提高,也对光
近年来,国内经济不断发展,供电需求量不断攀升,由于季节性和作息规律造成的用电峰谷差,会对电力系统产生很大的危害,不利于电网的稳定运行。随着能源互联网的加快构建,清洁能
我国水能资源可开发容量及高坝在役数量和坝高均居世界首位,在我国水电开发中,混凝土高拱坝是水工建筑物中的重要坝型之一。服役期高拱坝受动荷载与不确定环境因素作用形成疲
四旋翼无人机在军事和民用领域得到了广泛的应用。然而,四旋翼无人机是一个非线性、欠驱动、强耦合的系统,而且在实际飞行过程中还会受到不确定的紊流风场干扰,这些因素均给
医药行业作为与人类生活至关重要的领域,其中的矛盾一直存在。昂贵的药品费用与不完善的医保政策使得低收入乃至中等收入人群的健康问题无法得到及时的治疗和保障。对于我国的医药专利领域,可以借鉴《印度专利法》的相关制度规定,从而平衡药品专利和公共健康之间的冲突。《印度专利法》第3节(d)条款(以下简称3(d)条款)已经对药效作为药品专利的授权条件具有相关规定,并且“格列卫案”也作为了此项规定下的一个典型案例