基于动态过采样和代价敏感加权过采样算法的非平衡数据分类

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:jiaranerzhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的飞速发展,我们的计算机系统越来越频繁的参与到人类的生产活动中,在这其中承担了各种各样的任务。随着这一系列的生产活动而产生的是各种各样的数据,如何有效利用海量的数据去获取有价值的信息知识是机器学习(MachineLearning,ML)这一学科研究的重点难点问题。在众多类型的数据样本中不乏这样一种数据样本,其样本总体规模较大,但其中对我们有价值的类别样本的数量却明显地少于其他类别样本的数量,使得传统的机器学习模型在应对这一类特征数据集样本分类问题时泛化性能往往不高,从而进一步给数据驱动的建模任务带来很大难度,这类问题称为非平衡学习(Imbalance Learning)问题。常见的非平衡数据问题存在于人们生产生活的方方面面,如信用卡欺诈、医疗诊断、网络入侵等。  常用的处理非平衡问题的方法有基于样本层面方法和基于算法层面的方法。本文结合了数据样本层面和算法层面进行算法设计,用于同时处理二分类和多分类非平衡问题。传统的数据样本层面的算法包括有过抽样、欠抽样等策略,这样很容易得到不合理的数据样本,从而很大程度上影响分类模型的分类效率和精度。本文分别采用了动态过采样(Dynamic Synthetic Minority Oversampling Technique,DySMOTE)策略和代价敏感加权过采样(Cost Sensitive-Majority Weighted Minority Over Sampling,CS-MWMOS)算法设计相应的采样算法分别用于非平衡数据的处理,进一步合理有效的产生新的训练样本用于模型的学习,在分类算法层面采用神经网络进行具体框架模型的设计。本文基于实测数据集对上述两种算法进行了充分的验证分析,通过与其他算法的对比分析进一步表明该算法能够提高非平衡数据集的分类精度,同时对于特定的样本数较少的类别的分类精度也有明显提升,从而从理论与结果分析比较层面分别论证了本文算法的有效性和优越性。
其他文献
全球定位系统,是新一代的导航定位系统.目前,该系统已成为工程测量、大地测量等诸多方面监测和研究的重要工具.然而,在测量应用中,国内接收机设备功能不完善,国外接收机价格
随着计算机技术的快速发展,机器视觉、人工智能已经活跃在人类工作生活中的方方面面,具体有智能交通、智能监控、辅助驾驶等。成像是光电传感器对场景信息的获取过程,是人工智能
联邦成员的开发是高层体系结构(HLA)仿真中一个必不可少的步骤,包括对象模型和实体模型的开发.对象模型的开发可以使用OMDT、联邦成员框架生成工具等产生相应的模型代码;但是
在工业过程控制的发展史上,经典的PID控制是历史最悠久,生命力最强的控制方式,在国内90﹪以上的回路仍采用PID控制器.长期以来PID参数的整定选择就是一个难题.该文采用智能控制
微型扑翼飞行器是一种基于仿生学的机器人,高效的飞行效率、灵活的操纵性使得这种微型飞行器在特种军事、复杂民用领域内具备潜在的应用前景。进入新世纪以来,微型扑翼飞行器已
纵观当今网络技术的发展趋势,无论是Interne网、广域网、域网, 无线网络,未来都将朝着数字化、智能化、综合化、宽带化和个人化的 方向发展,这就要求网络要有范围越来越广泛的
图形用户界面(Graphics User Interface),简称GUI.80年代以来,计算机的使用者从计算机专家迅速扩大到了广大未受过专门训练的普通用户,由此极大地提高了用户界面在系统设计和
本文的研究内容是工业机器人在高精密装配领域的应用,依托于辽宁省科技创新重大专项“智能型搬运机器人”。目前工业机器人已经在装配领域有了大量的应用,但这些应用任务更多的
对各种运行中设备进行在线状态检测与故障诊断,将事故遏止在萌芽状态,是现代化设备管理的一项重要内容该文主要讨论了基于非线性频谱分析的故障诊断方法及其应用系统设计.基
广义预测控制是80年代以来发展起来的一种新型计算机控制算法,它具有较好的控制性能和鲁棒性.但是一般的广义预测控制算法对于系统的不确定性抑制能力是有限的.为了克服系统