论文部分内容阅读
平衡是相对的,不平衡是绝对的。目前,不平衡数据集分类问题已成为机器学习领域的研究热点之一。线性分类方法是最基本的模式识别方法之一,其特点是结构简单,学习和决策速度快,计算复杂性低,因而得到了广泛的应用。本文以经典的机器学习数据库、手写数字、二维元音等大规模数据集为应用背景,研究面向不平衡数据集的线性分类理论、方法与实现问题,主要研究Fisher线性判别式(FLDs),辅之于研究伪逆法和单层神经网络虚拟平衡算法。本文的主要工作如下: 一、重点研究了权值w,阈值θ和输入数据阵X对FLDs学习和推广性能的影响。具体包括: (a)从理论上指出,在投影方向w上的最小二乘点(也称总投影均值点)和投影均值中点这两个阈值在几何意义上是不合理的,并通过实验进行了验证。在此基础上,提出了一系列阈值计算经验公式,并依据经验风险最小原理从中确定一个优化的。这个阂值优化公式同时考虑类别间样本数量和分布区域不平衡这两个因素。 (b)建立了一种二一十进制混合编码系统。该特征表示方法在保持训练数据集内部结构几乎不变的前提下,使那些非常稠密的数据集变得稀疏起来并使类间隔尽可能大。依据1-近邻分类器识别率的变化大小来判断训练集内部结构是否因不同特征表示方法而变化。 (c)提出了对那些使类内散度阵Sw奇异或接近于奇异的数据集X应施加主成分分析(PCA)等特征提取处理,而不应加扰动的观点。认为,为保持原始数据集的内部结构,提取的特征应足够多,累计变差贡献率应达到99%或以上。 (d)提出了步数有限(至多3步)的迭代FLDs以进一步优化投影方向和阈值。认为,传统的FLDs所求得的投影方向和阈值不一定是最优的,迭代后的投影方向和阈值是否被接受的前提条件是由此得到的训练子集的分类错误率是否下降。 (e)提出了一种集成型FLD,综合采用了阈值优化选择、二-十进制混合特征表示、基于PCA的特征提取和有限次迭代策略。 二、比较了伪逆法与FLDs之间的关系,认为它们在一般情况下是不相等的;国际知名教材《Pattern Classification》在假设同类别训练样本期望输出均相等的特定情况下关于二者等价的证明是没有实际意义的。在此基础上,提出了一种迭代伪逆法,有效减轻了不平衡数据集的不利影响。 三、分析了在不平衡数据集情况下,基于传统误差反传算法的神经网络在迭代学习过程中决策边界的偏移情况,并在此基础上,提出了误差反传算法的虚拟平衡方法。 四、用上述线性分类器,再加上线性核支持向量机,对经典的机器学习数据库、手写数字、2维元音等大规模数据集进行了大量实验分析和比较。实验结果表明,本论文提出的关于线性分类器的优化方法是相当有效的;对很多实际问题,本文提出的线性分类方法的识别率甚至优于多层神经网络、径基函数(Radial BasisFunctions)神经网络、Gaussian核和多项式核支持向量机等非线性分类器。 总之,本论文的工作表明,再也不能认为传统Fisher判别式是合理的了;再也不能认为FLDs判别式总投影均值点和投影均值中点这两个阈值是合理的了;再也不能认为对奇异或接近奇异的数据集加微小扰动是合理的了。可以通过阈值选择、稀疏编码、PCA、有限次迭代、虚拟平衡等策略进一步提高线性分类器的学习和推广能力。 本文方法可以推广到一般非线性分类器。