论文部分内容阅读
分类是数据挖掘和机器学习中重要的知识获取手段之一,经典的分类算法通常是基于数据集平衡这一假设而提出的,而在实际应用中,许多数据集是不平衡的,并且少数类数据有时更重要,将其错分要付出更大的代价,如信用卡欺诈检测、医疗诊断、垃圾邮件判别等。因此,以总体分类精度为学习目标的传统分类算法并不适用于不平衡数据的分类,研究如何提高分类器对不平衡数据的分类效果有着重要的意义。集成学习一般有较好的分类效果且个体学习器的数据子集的构建与不平衡数据分类的重采样技术可以结合在一起,因此,本文主要研究将集成学习用于不平衡数据的分类。本文从通过过采样技术改变数据集样本分布使之平衡、将基于集成学习的混合采样与改进的分类算法相结合、将不平衡数据分类问题转化为异常检测问题几个方面入手,提出几种新的算法。本文主要工作如下:(1)本文对重采样技术使数据集平衡进行研究,由于合成少数类过采样技术SMOTE(Synthetic minority oversampling technique)算法及边界合成少数类过采样技术BSMOTE(Borderline-SMOTE)算法在过采样过程中都没有考虑到少数类样本的差异性,均是对少数类样本随机选择其应合成的样本数目,存在一定的盲目性。本文针对这个问题提出了综合考虑少数类样本中的边界样本的邻近平均距离与邻近多数类样本数目的自适应边界合成少数类过采样技术ABSMOTE(Adaptive Borderline Synthetic minority oversampling technique)算法,使用UCI数据集验证ABSMOTE算法可以提高分类器对于不平衡数据的分类效果。(2)为了增加集成学习中个体学习器的多样性,提高分类效果,本文首先对AdaBoost(Adaptive Boosting,自适应增强)算法的权值更新过程进行改进,并提出了基于不同采样率的混合采样的改进AdaBoost集成算法IAE-MSD(Improved AdaBoost Ensemble Based Mixed Sampling with Different Sampling Rates)。其中过采样部分使用ABSMOTE算法,欠采样部分使用基于先验的分层欠采样算法;重采样部分减少了噪声数据的负面影响,又一定程度的保留了数据集样本的原始分布,同时使用不同的采样率使每一个数据子集大致平衡,而且考虑到只有过采样和只有欠采样的极端情况,令相邻数据子集样本数目相差大致相同,并使用改进的AdaBoost算法作为基分类器。使用UCI数据集验证IAE-MSD算法可以提高分类器对于不平衡数据的分类效果。(3)本文将少数类数据看作是异常数据,将不平衡数据分类问题转化为异常检测问题。针对隔离森林iForest(isolation Forest)算法对局部异常点检测能力较低,局部离群因子检测LOF(Local Outlier Factor)算法检测时间较长的问题,提出了基于瀑布型混合技术的隔离森林iForest-WHT(isolation Forest Based on Waterfall Hybrid Technology)算法。以人工合成数据集和UCI真实数据集为研究对象,经实验验证此算法可以提高异常检测效果。