论文部分内容阅读
特征选择是机器学习领域中一个重要的研究方向。尤其是近年来,随着很多以高维小样本为特征的实际问题的涌现,如:自然语言处理、生物信息、经济与金融、网络与电信和医学等数据分析领域,特征选择问题又一次成为人们关注的焦点。然而,这一次研究特征选择的目的并不是出于节约资源,而是为了提高分类器的分类精度和满足人们日益增长的个性化需求。
Rashomon问题在特征选择领域是一个普遍的现象。对于传统的特征选择目标来说,Rashomon现象可能是一个灾难。但是,对于以需求为导向的特征选择问题来说,Rashomon现象可能正好提供了为不同的需求寻找不同的解的可能性。
传统的特征选择算法往往是要寻找使得某个评价指标最优的一个特征子集。由于其特征选择的过程独立于用户的需求,因此,传统的特征选择算法通常不能够满足用户的不同需求。为了满足不同用户的个性化需求,以用户需求为导向的特征选择算法就应运而生了。在这里,用户的需求被描述成用户的一种特征偏好,用一个线性的特征序来表示。因此,如何评价一个特征子集对用户需求的满意程度以及如何求解最能满足用户需求解的问题就成为以用户需求为导向的特征选择算法的核心问题。
近年来,在处理高维问题时,通过进行有效的特征选择来提高分类器的分类精度和模型的稳定性的研究为特征选择的研究注入了新的血液。这类问题的研究往往被形象地称为变量稀疏化问题。对特征选择来说,这类特征选择方法被称为Embedded特征选择算法。
另一类提高高维小样本问题的分类精度和模型稳定性的方法就是设计基于替代训练集的多分类器系统。在多分类器系统中每个替代训练集以及相应的分类器模型都可以看作是对真实问题的一个侧面的描述。通过对问题不同侧面描述的组合,希望获得一个更加稳定的分类器模型。为此,我们设计一个多局部分类器系统试图解决高维小样本问题。其中,每个替代训练集是基于某个reduct的训练子集,不同的替代训练集需要不同的reduct,因此,一个以算法需求为导向的特征选择算法被提出。另外,一个实际的高维小样本问题被介绍用来验证多局部分类器系统的有效性。
本论文的主要成果是:
①对特征选择算法的发展历史和主要方法进行了较为详细的综述;
②探讨了特征选择问题中的Rashomon现象;
③明确提出以用户需求为导向的最优reduct的定义,并证明基于属性序的最优reduct问题是NP-Hard问题,同时给出了一个领域贪婪的reduct算法;
④提出了以算法需求为导向的特征选择算法,并在此基础上设计了一个多局部分类器系统。分析了一类典型的高维小样本问题-WSD问题,并用这个实际的例子验证了多局部分类器系统的有效性。