基于快速密度聚类的特征选择算法

来源 :南开大学 | 被引量 : 0次 | 上传用户：weaselhyp

【摘要】

：

在机器学习领域，特征选择已成为不可或缺的降维方法，尤其是基因数据，特征的维度从几十维到几万维。维度过高不仅会使模型的泛化能力降低，而且对分类时间复杂度有很大的影响。特征

【作者】

：

殷艳坤

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2016年期

【关键词】

：

特征选择快速密度聚类标签信息预测精度相关度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习领域，特征选择已成为不可或缺的降维方法，尤其是基因数据，特征的维度从几十维到几万维。维度过高不仅会使模型的泛化能力降低，而且对分类时间复杂度有很大的影响。特征选择的根本目的是选择最少的特征，达到最大的分类精度。　　近年来，许多学者对基于聚类的特征选择方法进行了深入研究，但是，仍然存在值得研究的问题:1）在众多基于聚类的特征选择方法中，很多是在经典层次聚类、k-means算法和图论聚类上，但是，在密度聚类基础之上的特征选择算法却鲜少涉及;基于层次聚类的特征选择和基于图论聚类的特征选择，特征聚类过程一般过于复杂，时间复杂度高，最终得到的分类正确率不稳定;2）更多的基于聚类的特征选择方法在特征聚类过程中只是依据特征与特征之间的相关性，而没有利用标签的信息，并且，相关度矩阵的计算时间较长。　　针对1）中提及的问题，本文提出了一种基于快速密度聚类的特征选择(FDCFS)算法，其中特征聚类依据的是Alex Rodriguez和Alessandro Laio提出的快速密度峰发现聚类算法。特征聚类过程中，只需要计算每一个特征的两个权值，因此，其特征聚类过程的时间复杂度为O(n），与特征个数，n呈线性关系，随着特征个数的增加，时间优势愈加明显。而且，在聚类过程中，聚簇的个数依靠的是特征本身紧密程度，不需要提前输入聚簇的数目。此外，FDCFS算法对数据类型要求不高，可以使用任意的度量方式来计算相关度矩阵。FDCFS算法的主要过程有两个，第一个为聚类过程，聚类过程中通过使用快速密度峰发现聚类算法将特征聚簇，使相同簇之间的特征相关度强，不同簇之间的特征相关度弱甚至彼此独立。第二个是特征选择过程，从每一个簇中挑选出与类标签相关度最强的特征作为代表特征，这些代表特征即为得到的最优特征子集。　　为了进一步利用标签信息，提出了IFDCFS算法，该算法是在FDCFS算法的基础上，将特征标签的信息融合到原始特征向量中，使基因的类别信息对特征聚类过程进行指导，从而使特征相关度计算量减少，提高分类正确率。由于对高维特征向量进行了压缩，特征维度降低导致了部分信息受损，使得部分分类正确率下降。但是实验表明，在预测精度方面，FDCFS算法与IFDCFS算法无差异。　　在实验中，相关度度量方法使用对称不确定性(SU)，对比试验包括基于聚类的特征选方法FAST算法、FSFC算法，基于Filter的FCBF算法、Relief(F)算法，和CFS算法。为了能更好的说明FDCFS算法的有效性，使用了四个经典的分类器预测精度，分别是基于决策树的C4.5分类器，基于概率的朴素贝叶斯分类器，基于实例的IB1分类器和基于支持向量机的SMO分类器。通过实验表明，FDCFS算法不仅能够得到较小的特征子集，而且提高分类器的预测精度、降低了特征聚类的时间。

其他文献

超短波无线网络规划研究

超短波无线网络在灾难救援等紧急通信方面具有重要的作用。然而，目前国内外还鲜有公开文献对超短波无线网络规划展开研究。在不同的应用场景下，超短波无线网络需要采用不同的规

学位

超短波网络分层多目标优化无线网络规划有限枚举法动态规划启发式算法

基于污点分析的控制流混淆分支点选择方法

代码混淆技术是软件保护的有效技术之一。其中控制流混淆方法以其适用范围广、安全性能好等优点得到了广泛的应用。近年来研究人员提出了许多行之有效的控制流混淆方法。同时

学位

软件保护代码混淆污点分析分支点选择

中文文本质量测评方法研究

文本质量好坏是影响读者阅读体验的重要因素，质量优秀的文本能够使人们更加快速并准确地获取自己想要的知识，同时可大大减少阅读时间。因此，对文本质量进行测评，发现文本在编写和

学位

文本质量测评词语聚类文本聚类句子相似度计算句法分析

数据复制中间件优化技术研究

近年来，随着云计算的发展，在云配备的弹性资源供给基础上已开发了多种中间件，用于支撑云应用的快速部署、高效运行和轻松维护。考虑到复制技术是增强分布式服务的关键技术，而云环

学位

数据复制云中间件因果一致性切换策略

可变形体模特机器人体型建模及主控系统的研究与实现

服装的购买主要分为定制、实体店购买与网络购买。定制服装以及到实体店购买服装，必定要量身剪裁或亲身试衣。无论是设计师抑或消费者，在何种情况下，均对服装是否合体有较高的要

学位

可变形体模特机器人主控系统分层模式体型分析灰色模型

基于国产CPU的高性能控制器的研究

数据获取和控制系统是高能物理及其他各种大型科学实验装置中不可或缺的两个重要系统，而数据获取系统中的读出计算机和控制系统中的前端控制计算机是各自系统中的关键设备。本

学位

高能物理实验龙芯2F处理器VME总线控制器读出计算机体系结构

基于形态学的心电信号特征提取和分类方法的研究

心电图在医学和模式识别领域有着很重要的作用,使用计算机对心电信号进行自动诊断对于医学等领域有着很重要的意义。论文提出了一种以心电信号形态特征为基础,基于信号分段,

学位

心电信号分类形态特征特征提取贝塞尔曲线自组织神经网络

分布式Web服务质量测量平台的设计与实现

随着Web服务不断的推广,网络中出现大量功能相同或者相似的Web服务。由于用户地域和网络环境的不同,相同Web服务QoS相对于不同的用户可能会差异很大,因此在众多功能相同的Web

学位

Web服务QoS测量网络坐标定位

儿童照合成研究与非接触式掌纹定位方法

随着人们生活水平的不断提高和信息领域的迅速发展，生物特征领域得到人们越来越多的关注和研究。一方面，生物特征比如人脸由于其普遍性，在娱乐方面的应用得到了广泛关注。儿童照

学位

儿童照片合成生物特征识别非接触式掌纹纹线结构掌纹定位

雨的真实感绘制及雨和树木交互作用的实时模拟

在计算机图形学中雨景的真实感绘制是一项重要的研究课题。雨的模拟可以大大增加场景的真实感，应用领域非常广泛，包括电影、动画、游戏和虚拟现实等领域。然而雨的真实感绘制是

学位

雨线真实感绘制树木交互作用实时模拟计算机图形学

基于快速密度聚类的特征选择算法

其他学术论文