基于组合变量与重叠区域的SVM-RFE方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:hughy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术不断发展进步,人类每天都要处理大量繁冗复杂的信息。数据挖掘技术就是从这些大量纷繁的数据中挖掘潜在有用的信息,使数据的分析和解释更简洁容易。特征选择是数据挖掘的一个重要分支,特征选择算法从大量的特征中去除噪音特征和冗余特征,有价值特征的提取使特征维数降低,模型简化。代谢组学中用数据挖掘技术处理数据,对生物体产生的代谢产物研究,分析代谢物质和生物体生理病变之间的变化关系,挖掘富含信息的潜在代谢标志物,辅助生物体疾病的诊断应用。代谢组学研究中,代谢产物之间的相互作用可能是表征发生癌变的关键信息,而代谢产物相互作用至少有两个代谢物质共同起作用。所以,相对于单个变量,变量组合也可能为癌变提供有用的潜在标记物。可是,不同的方法构造的组合变量在特征选择和样本分类中有着各自的特点和起到不同的作用,本文利用加、减、乘和除的对数四种组合方法来构造组合变量,选择评价相对较优的构造方法组合的变量对数据来代替原始单变量表达数据,作为支持向量机的特征回归消减方法(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)的输入数据,进行特征选择和样本分类(SVM-RFE-C)。一组液相色谱质谱数据集的实验结果表明组合变量的有效性,从而构造组合变量进行特征选择可以得到有区分能力的信息。支持向量机特征迭代消减方法(SVM-RFE)是一种基于SVM典型的序列后向递归消除特征的方法,利用支持向量来得到每一个特征的权重大小,迭代地删除当前特征集合中最差的特征,从而使得特征空间得以优化。特征权重衡量每个特征对样本分类的重要性,特征的重叠区域(Overlapping Area,OA)却度量了特征与类标之间的联系,是样本分布的一个重要的度量准则。为了更好的筛选具有区分能力的特征,建立更为有效的分类模型,本文将OA与SVM-RFE相结合,对当前空间内每一个特征的权重进行评价,提出了一种组合的特征选择方法OA-SVM-RFE。5个公共数据集和1组卵巢癌数据集的测试结果表明,OA-SVM-RFE算法所选取的特征子集的分类性能优于原始SVM-RFE算法。
其他文献
图上最短路径问题是一个经典问题,在诸多领域有着广泛的应用,路网上交通导航就是其中尤为重要的一项应用。随着信息化的高速发展,路网趋于精细,数据量较大;比如纽约市路网地图就
每年发生大量的交通事故中由疲劳驾驶引起的数以万计,所以如何降低因疲劳驾驶引起的交通事故发生概率具有极其重要的意义。基于驾驶员视觉特征的疲劳检测技术因为其非接触式
多传感器数据融合技术在军事和民用领域有着广泛的应用,是目前热门的研究领域之一。本文以多传感器数据融合系统为研究对象,以数据融合算法为侧重点主要做了如下工作:首先,针
云计算是新兴商业计算模式之一,是并行计算、分布式计算和网格计算的发展。云计算充分利用成熟的虚拟化这一关键技术封装打包数据中心的资源,通过互联网将服务提供给用户,以满足
伴随着网络和信息技术的发展,互联网已经融入到了我们生活的方方面面。特别是随着Web2.0技术的应用,社交网络迅速兴起,如QQ空间(Qzone)、人人网(Renren)、朋友网(Pengyou)、
随着互联网的飞速发展,HTML5标准的提出并广泛被各种浏览器所支持,传统的基于二维图形的网络页面已经不能满足用户的视觉和交互需求。在这一趋势下,通过HTML5引入并实现的Web
近年来,随着物联网的快速发展和人们对传感器网络研究倍加关注,作为物联网核心技术的无线传感器网络也得到了广泛的应用和研究。由于无线传感器节点具有价格低廉、功耗低和体
随着软件行业的发展,软件开发技术的提高,软件产品的规模变得日益庞大,软件的复杂度不断增加,软件测试日益得到重视和变得专业化。软件测试作为保证软件质量的重要环节,测试
无线传感器网络是一门综合了计算机技术、现代通信技术、微电子技术、嵌入式系统、分布式信息处理等理论的新兴科学。它是由大量具有感知能力、计算能力和通信能力的微型传感
随着近些年来测序技术的飞速发展,人类产生了海量的生物序列数据,亟需通过有效的计算手段进行分析和处理。而在众多的生物序列分析与处理问题中,生物序列数据的k-mer频次信息是