论文部分内容阅读
在机器学习领域,特征选择已成为不可或缺的降维方法,尤其是基因数据,特征的维度从几十维到几万维。维度过高不仅会使模型的泛化能力降低,而且对分类时间复杂度有很大的影响。特征选择的根本目的是选择最少的特征,达到最大的分类精度。 近年来,许多学者对基于聚类的特征选择方法进行了深入研究,但是,仍然存在值得研究的问题:1)在众多基于聚类的特征选择方法中,很多是在经典层次聚类、k-means算法和图论聚类上,但是,在密度聚类基础之上的特征选择算法却鲜少涉及;基于层次聚类的特征选择和基于图论聚类的特征选择,特征聚类过程一般过于复杂,时间复杂度高,最终得到的分类正确率不稳定;2)更多的基于聚类的特征选择方法在特征聚类过程中只是依据特征与特征之间的相关性,而没有利用标签的信息,并且,相关度矩阵的计算时间较长。 针对1)中提及的问题,本文提出了一种基于快速密度聚类的特征选择(FDCFS)算法,其中特征聚类依据的是Alex Rodriguez和Alessandro Laio提出的快速密度峰发现聚类算法。特征聚类过程中,只需要计算每一个特征的两个权值,因此,其特征聚类过程的时间复杂度为O(n),与特征个数,n呈线性关系,随着特征个数的增加,时间优势愈加明显。而且,在聚类过程中,聚簇的个数依靠的是特征本身紧密程度,不需要提前输入聚簇的数目。此外,FDCFS算法对数据类型要求不高,可以使用任意的度量方式来计算相关度矩阵。FDCFS算法的主要过程有两个,第一个为聚类过程,聚类过程中通过使用快速密度峰发现聚类算法将特征聚簇,使相同簇之间的特征相关度强,不同簇之间的特征相关度弱甚至彼此独立。第二个是特征选择过程,从每一个簇中挑选出与类标签相关度最强的特征作为代表特征,这些代表特征即为得到的最优特征子集。 为了进一步利用标签信息,提出了IFDCFS算法,该算法是在FDCFS算法的基础上,将特征标签的信息融合到原始特征向量中,使基因的类别信息对特征聚类过程进行指导,从而使特征相关度计算量减少,提高分类正确率。由于对高维特征向量进行了压缩,特征维度降低导致了部分信息受损,使得部分分类正确率下降。但是实验表明,在预测精度方面,FDCFS算法与IFDCFS算法无差异。 在实验中,相关度度量方法使用对称不确定性(SU),对比试验包括基于聚类的特征选方法FAST算法、FSFC算法,基于Filter的FCBF算法、Relief(F)算法,和CFS算法。为了能更好的说明FDCFS算法的有效性,使用了四个经典的分类器预测精度,分别是基于决策树的C4.5分类器,基于概率的朴素贝叶斯分类器,基于实例的IB1分类器和基于支持向量机的SMO分类器。通过实验表明,FDCFS算法不仅能够得到较小的特征子集,而且提高分类器的预测精度、降低了特征聚类的时间。