论文部分内容阅读
数据挖掘是一门新兴学科,旨在分析数据特征,建立数据模型并挖掘出数据的内在联系,从而应用于数据的预测,其中应用最为广泛的是模式分类技术。模式分类技术以线性分类器为基础,其中Fisher判别法准则应用最广,目前已有多种改进线性提取方法,如加权Fisher判别法,但当维度过大时,线性提取后的判别式分类准确率会显著降低。鉴于此,最优组合因子Fisher判别法依据所有因子的可能组合得到对应的线性判别式,以回代正确率为标准,筛选出回代正确率最高的组合,即为最优组合因子,从而提高线性分类准确率,但当因子过多时,计算复杂度呈指数增长,当因子个数大于15时,该算法便无法实现。KNN算法的思路是选出在特征空间中与未知样本最相似(即特征空间中最邻近)的k个样本,其中k个样本大多数属于某一个类别,则该未知样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别,虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关,并且将所有类别视为同等重要,当样本密度不均时,易造成误判。证据理论的KNN算法在KNN算法的基础上引进证据函数,根据待测样本到训练样本的距离生成证据函数,将证据函数融合,信任度最高的证据即为最终分类,该算法有效改善了KNN算法将所有类别视为同等重要的缺陷,充分利用了近邻样本信息。但当样本维度过高,即属性个数过多时,会造成计算复杂度过高,应用性不强。而在分类方法改进中,信息增益广泛应用于提高分类方法的准确率,本文引进信息增益,建立基于信息增益的最优组合因子Fisher判别分类器,计算每个因子的信息增益并降序排序,并依次取前i个因子的组合,并得到对应的判别式,计算对应的回代正确率,选取回代正确率最高的组合作为最优组合,将计算复杂度从指数降为线性,从而实现最优组合因子判别分类器的优化。同时将信息增益引入了证据理论KNN算法中,提出一种基于信息的证据理论KNN算法,即在建立证据函数前,计算因子信息增益,选取信息增益大的前i个因子的组合,并用经典KNN算法进行分类,从而以KNN分类法的回代正确率为标准,删除冗余因子,从而筛选出重要属性,并依据重要属性筛选最近邻样本,有效降低取近邻样本和证据融合过程中的计算复杂度。实验表明优化后的分类器有效剔除了冗余因子,不仅在低维数据上表现良好,具有良好的分类准确率,更有效改善了原有分类方法在高维数据中分类准确率急剧下降的缺点。