论文部分内容阅读
线性分类器虽然是模式识别中最简单的一类,但在许多问题中往往能取得比较好的结果,由于其简单容易实现,对资源要求低而被广泛应用。 Fisher线性判别式(FLD)给出了权向量的求解方法,但不能确定对决定决策平面位置的阈值的选取问题。常用阈值在不平衡问题中往往会出现偏差,致使分类性能较差。本文认为影响FLD不平衡的因素主要是样本分布区域的不平衡而不是样本数的不平衡,并提出多个经验阈值。每个阈值都可能在特定分布,特定分类评价指标下取得最佳结果,通过比较阈值在不同评价指标下的表现,阐述其特性和适用范围,根据具体情况选取合适的阈值。 伪逆线性判别(PILD)是另外一种常用的线性分类器。本文证明了在伪逆法中通常对各类样本期望输出的假设是不合理的,一般认为在特定期望输出下PILD与FLD等价,本文证明它们并不一定等价并研究了输入数据对所求权值的影响。 线性分类器只是简单的假设样本可以被一个超平面粗略的分为两类,相比于决策树、神经网络等复杂分类器更不容易产生过拟合,因此本文认为将线性分类器作为基分类器,将FLD和PILD与Adaboost进行结合同样可以提高分类性能,分析了其能取得很好的训练误差并且不容易产生过拟合的原因,将其应用到FLD和PILD等线性分类器的性能提升中。 之后本文研究了特征表示对分类器性能的影响,提出当出现矩阵不可逆时应该进行降维而不是添加微小扰动以及利用二-十进制混合编码,能够在基本保持原样本数据内部结果的前提下,提升分类器的分类结果。通过实验证明通过优化阈值选择、样本特征方面的改进以及Adaboost集成算法的提升确实可以改善FLD和PILD的分类性能。