论文部分内容阅读
在现实世界的分类问题中,关于研究对象的数据往往是类不平衡的,即不同类别的样本数目有很大差异,在不平衡数据集中,某些类别在数量处于劣势(简称“小类”),甚至被其他类别(简称“大类”)“淹没”,而已有的绝大部分分类算法并不显式地考虑类不平衡问题,导致小类的分类精确性较差,因此在处理不平衡数据上分类效果不理想,往往将小类样本错分为大类,不能达到分类的目的。
一般认为,支持向量机被认为是处理不平衡问题的较理想工具,因为支持向量机的决策过程仅仅受少量的支持向量影响,与其它样本无关,因此受类不平衡的影响有限。本文通过支持向量机、随机森林和线性判别等分类算法的对比实验表明,支持向量机在处理非平衡数据集时并没有显著优势,在部分数据集上甚至表现不如其它算法。为了解释这个问题,本文通过人造数据分析了影响支持向量机分类效果的内在原因,提出了关于类不平衡问题的一个新观点:类不平衡不是简单地表现为不同类别样本在样本数目上的差异,而应该是在决策面附近两类样本的密度。从而很好地解释了为什么支持向量机在处理某些非平衡问题表现突出(文本分类),而在处理其它问题时表现不理想。
另一方面,基于采样的不平衡处理方法,没有考虑大类数据分布中可能存在的多样性,即大类本身包含了多个数据分布。在该情形下,一个线性决策面,是不符合实际数据分布情况的。常用的上采样和下采样方法,即使面临一个线性可分问题,在这种情形下得到的决策面也不符合数据实际分布情况。本文提出了基于聚类的组合支持向量机决策器(Cluster-svms),充分考虑数据本身的特征,利用聚类思想将大类聚成几个子类,再分别与小类形成数个子支持向量机,组合在一起形成决策器。同时考虑到聚类的性质,对决策器的投票机制也做了深入探讨,最终确定采用“一票否决制”。为了测试该算法的分类效果,本文以UCI标准数据库为基础,将其与传统支持向量机、Smote-svm算法等多个分类器进行了对比实验,验证了Cluster-svms算法在综合F-mean、G-mean、及小类准确率等指标的基础上表现优于其它算法。