论文部分内容阅读
科技发展带来数据维度的不断升高,对知识发现提出了更高的要求和挑战。从海量数据中发掘有意义的信息是数据挖掘研究的重点,也是各行各业关注的热点。特征选择是降低数据维度的有效方法,从高维数据中选出区分能力强、具有研究意义的特征,不仅能降低数据维度,缩短运行时间,还能提高分类性能,发现数据中潜在的信息和研究价值。数据质量能影响分类性能,从高维数据中选出富含信息、具有区分能力的特征能改善数据的质量,提高分类性能。无关特征具有较少的信息,对数据分布影响较少。特征打乱前后对数据分布的改变,反映了特征所含信息的多少。因此,本文结合特征打乱和类重叠区域R-value,提出了一种融合的无监督特征选择算法EUFSPR,该方法在对特征进行评价时还结合了聚类技术、融合技术、以及数据评价技术。类重叠面积R-value用来度量不同类别样本间的重叠程度;利用聚类技术对样本聚类,以便更好地发现隐藏的数据结构;结合融合的抽样技术可以提高特征选择的稳定性。10个公共数据集的聚类和分类结果表明,该算法在缺少类标信息的指导下也是一种良好的数据预处理方法,能有效地提高数据的质量和分类性能。特征在不同类别样本间的重叠区域反应了特征的区分能力。具有良好区分能力的特征,能将不同类别的样本较好的区分开,使不同类别样本的重叠区域较小。本文根据特征在各类样本中分布的有效范围及每一区域不同类别样本的分布密度,提出一种基于特征有效范围的前向特征选择及融合分类算法FFS-ER.该算法对每个特征建立其相应的单变量分类器,在进行前向搜索的过程中,选取分类性能最好、冗余度最小的单变量分类器,然后对所选取的单变量分类器进行加权融合,构成一个融合分类模型。8个公共数据集的实验结果表明该算法所选特征构建的分类模型的分类性能明显优于FIM算法,且在大多数情况下优于SVM-RFE算法。同时标准偏差的比较说明该算法相对于SVM-RFE和FIM具有较好的稳定性。