论文部分内容阅读
科学技术不断发展进步,人类每天都要处理大量繁冗复杂的信息。数据挖掘技术就是从这些大量纷繁的数据中挖掘潜在有用的信息,使数据的分析和解释更简洁容易。特征选择是数据挖掘的一个重要分支,特征选择算法从大量的特征中去除噪音特征和冗余特征,有价值特征的提取使特征维数降低,模型简化。代谢组学中用数据挖掘技术处理数据,对生物体产生的代谢产物研究,分析代谢物质和生物体生理病变之间的变化关系,挖掘富含信息的潜在代谢标志物,辅助生物体疾病的诊断应用。代谢组学研究中,代谢产物之间的相互作用可能是表征发生癌变的关键信息,而代谢产物相互作用至少有两个代谢物质共同起作用。所以,相对于单个变量,变量组合也可能为癌变提供有用的潜在标记物。可是,不同的方法构造的组合变量在特征选择和样本分类中有着各自的特点和起到不同的作用,本文利用加、减、乘和除的对数四种组合方法来构造组合变量,选择评价相对较优的构造方法组合的变量对数据来代替原始单变量表达数据,作为支持向量机的特征回归消减方法(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)的输入数据,进行特征选择和样本分类(SVM-RFE-C)。一组液相色谱质谱数据集的实验结果表明组合变量的有效性,从而构造组合变量进行特征选择可以得到有区分能力的信息。支持向量机特征迭代消减方法(SVM-RFE)是一种基于SVM典型的序列后向递归消除特征的方法,利用支持向量来得到每一个特征的权重大小,迭代地删除当前特征集合中最差的特征,从而使得特征空间得以优化。特征权重衡量每个特征对样本分类的重要性,特征的重叠区域(Overlapping Area,OA)却度量了特征与类标之间的联系,是样本分布的一个重要的度量准则。为了更好的筛选具有区分能力的特征,建立更为有效的分类模型,本文将OA与SVM-RFE相结合,对当前空间内每一个特征的权重进行评价,提出了一种组合的特征选择方法OA-SVM-RFE。5个公共数据集和1组卵巢癌数据集的测试结果表明,OA-SVM-RFE算法所选取的特征子集的分类性能优于原始SVM-RFE算法。