论文部分内容阅读
特征选择是指从原始特征中选择出一些最有效特征以降低数据集维度的过程,其能够降低模型复杂度,减少过拟合的风险。近年来,关于特征选择的算法研究有很多,其中多核学习特征选择(Multiple Kernel Learning for Feature Selection,MKL-FS)算法利用核函数去刻画特征的复杂性质,在线性和非线性特征选择算法中表现都比较突出。但是,MKL-FS算法存在两个局限性:(1)核函数的选择不够丰富;(2)特征选择的结果不够稀疏。一方面,MKL-FS算法要求核函数满足正定性的约束,其一定程度上约束了核函数丰富的表达能力。最新研究表明,不定核能够更好地刻画数据之间的关系,在许多实际应用中取得了比正定核更好的效果。但是,由于不定核的非凸性,现有的MKL-FS算法通常无法适用,目前相关的研究也比较少。另一方面,MKL-FS算法通常使用l1范数来得到稀疏的核组合系数。但是l1范数仅仅是l0范数的一种凸近似,有时并不能得到l0范数正则化问题的理想解,从而导致精度损失。而l0范数的优化问题是NP-hard,因此许多线性特征选择方法利用l0范数的各种非凸近似来替代l0范数,并且取得了良好的效果。但是目前l0范数的各种非凸近似在非线性模型中的应用较少。本文将从这两方面着手,对MKL-FS算法进行研究和改进,研究成果总结如下:1)针对MKL-FS算法局限于使用正定核的问题,本文提出了一种基于l1范数的多不定核特征选择算法(Multiple Indefinite Kernel Learning for Feature Selection,l1-MIK),该算法建立于不定核支持向量机(Indefinite Kernel Support Vector Machine,IKSVM)的主问题形式,对每一个特征都用一个不定核进行刻画,利用l1范数对核组合系数进行约束来自动选择特征。为了求解该算法中的非凸优化模型,进而提出了一种两阶段式的算法来分别优化IKSVM系数和核组合系数。其中,IKSVM的非凸问题被重构为凸差规划问题,利用凸差算法进行求解;核组合系数的优化问题用投影梯度法求解。为了进一步推广到大规模问题,本文采用一种leverage score方法对大规模数据集进行采样,并将l1-MIK算法扩展到多类分类的场景。最后,在实际数据集上验证了所提算法的有效性。2)针对MKL-FS算法局限于使用l1范数进行特征选择的问题,本文进一步提出一种基于l0范数的多不定核特征选择算法(l0-MIK),利用l0范数的非凸近似来对核组合系数进行约束,并自动选择特征。l0-MIK建立于IKSVM的主问题形式,并且也是利用两阶段式算法分别求解IKSVM系数和核组合系数。其中,IKSVM的非凸问题和l0范数的非凸问题分别被重构为凸差规划问题,利用凸差算法进行求解。大量实验表明,l0-MIK算法在分类精度和特征的稀疏性方面,都要优于现有的MKL-FS算法和l0范数的线性特征选择算法。