论文部分内容阅读
近年来,随着信息技术的飞速发展,我们的计算机系统越来越频繁的参与到人类的生产活动中,在这其中承担了各种各样的任务。随着这一系列的生产活动而产生的是各种各样的数据,如何有效利用海量的数据去获取有价值的信息知识是机器学习(MachineLearning,ML)这一学科研究的重点难点问题。在众多类型的数据样本中不乏这样一种数据样本,其样本总体规模较大,但其中对我们有价值的类别样本的数量却明显地少于其他类别样本的数量,使得传统的机器学习模型在应对这一类特征数据集样本分类问题时泛化性能往往不高,从而进一步给数据驱动的建模任务带来很大难度,这类问题称为非平衡学习(Imbalance Learning)问题。常见的非平衡数据问题存在于人们生产生活的方方面面,如信用卡欺诈、医疗诊断、网络入侵等。 常用的处理非平衡问题的方法有基于样本层面方法和基于算法层面的方法。本文结合了数据样本层面和算法层面进行算法设计,用于同时处理二分类和多分类非平衡问题。传统的数据样本层面的算法包括有过抽样、欠抽样等策略,这样很容易得到不合理的数据样本,从而很大程度上影响分类模型的分类效率和精度。本文分别采用了动态过采样(Dynamic Synthetic Minority Oversampling Technique,DySMOTE)策略和代价敏感加权过采样(Cost Sensitive-Majority Weighted Minority Over Sampling,CS-MWMOS)算法设计相应的采样算法分别用于非平衡数据的处理,进一步合理有效的产生新的训练样本用于模型的学习,在分类算法层面采用神经网络进行具体框架模型的设计。本文基于实测数据集对上述两种算法进行了充分的验证分析,通过与其他算法的对比分析进一步表明该算法能够提高非平衡数据集的分类精度,同时对于特定的样本数较少的类别的分类精度也有明显提升,从而从理论与结果分析比较层面分别论证了本文算法的有效性和优越性。