基于重采样的非均衡数据分类算法研究及应用

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:555jl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今大数据时代,数据的规模以指数级的速度快速增加,数据作为互联网的核心,其在人们生活中应用价值越显关键。如何通过技术手段精确、快速的从这些数据中获取有价值的信息成为当前重要的研究内容。机器学习的出现提供了一种手段,其能够自动的挖掘数据的内在规律,并且利用这些规律对新的数据进行预测。经过学者们多年的研究,当前已经提出了很多成熟的模型,但这些学习方法都是针对分布均匀的样本提出的。然而,在日常生活中,许多数据集分布不均匀,类与类之间的样本数差异很大,即非均衡数据集。如信用卡欺诈检测、故障诊断、医疗诊断、垃圾邮件过滤等。数据分布的不平衡性对数据挖掘提出了更大的挑战,这是因为传统分类算法在最初被设计和实验时都是基于分布均匀的数据集提出的,分类器为了确保总体性能,部分少数类样本会被错误的分类,这会使少数类的分类识别率降低。但是,通常我们更重视少数类样本的分类准确性,因为少数类样本携带的信息具有更高的价值,是数据挖掘的目标。针对非均衡数据在分类过程中呈现的问题,业界主要从数据采样和算法改进两个层面进行相关研究。在数据采样层面主要通过某种采样方法,使数据集中的多数类样本与少数类样本在样本数量上大体相当,进而来处理非均衡数据集的分类偏向问题;在算法层面,通过引进惩罚机制对算法进行优化(如代价敏感学习,集成学习,以及模糊支持向量机等)来改善少数类的分类识别率。针对非均衡数据集分类结果倾向于多数类的问题,本文从数据采样和算法两个层面来提高少数类的分类精度。具体研究内容如下:(1)从数据层面,本文首先分析了非均衡数据集的特点,充分考虑非均衡数据集的类内与类间平衡,并结合SVM算法对SMOTE采样算法进行优化,提出一种基于SVM的不平衡数据过采样方法-SVMOM(oversampling method based on SVM),该算法首先通过SVM得到分类超平面,然后根据每个少数类样本到分类超平面的距离赋予少数类样本距离权重,其次根据样本的分布赋予样本密度权重,再次根据少数类样本的距离权重和密度权重赋予样本选择权重,最后根据样本的选择权重运用SMOTE合成新样本,进而达到降低非均衡数据集平衡率的目的。最后通过对比实验验证了算法的有效性。(2)从算法改进层面,利用集成算法在处理非均衡数据集的优势,将本文提出的SVMOM过采样算法与Adaboost结合成新的集成算法—基于重采样的非均衡数据集成分类算法(SVMOMboost),该算法在每轮迭代开始,首先应用本文提出的SVMOM算法,对少数类样本进行扩充并同时更新样本权重,使数据集达到一定程度的平衡,然后进行弱分类器的训练。通过实验对比发现,相较于其他一些算法,SVMOMboost算法具有较好的性能表现。(3)最后从《中国强沙尘暴序列及其支撑数据集》与《中国地面气候资料日值数据集》中提取甘肃部分地区沙尘暴数据以及气象数据,将提取后的数据进行预处理后,结合本文提出的基于重采样的不平衡数据集成分类算法(SVMOMboost)构建了面向甘肃部分地区沙尘暴非均衡数据分类问题模型。
其他文献
With the rapid expansion of city,the available space of land is becoming increasingly tight.Foundation pit is getting deeper,harder and larger.Traditional support structures,such as pile anchors,soil
学位
悬挂结构作为一种新型建筑结构体系,具有扩大使用空间,结构布局灵活,外观造型独特的特点。其楼盖由吊杆悬挂,是抵抗重力荷载的另一种方式,并且易损坏的吊杆构件可以进行更换,因此具备良好的经济效益和良好的抗震潜能。因此,本文提出一种新型悬挂结构体系,并已申请相关专利,该体系的混凝土柱通过钢制多功能连接件连接,并且钢制多功能连接件上开有吊孔,用来悬挂楼盖。为了进一步研究体系所涉及构件的稳定性及新型悬挂结构体
电离层是地球环境中的重要组份,对人们的生产生活产生着利弊共存的影响。为了更好地发挥电离层的优势作用,规避其发生扰动时产生的不利影响,电离层研究成为了一项热门课题。电离层电子浓度总含量是指单位面积内电子浓度沿高度的积分,常常被用来描述电离层形态,表征电离层的变化。分析电离层电子浓度总含量的变化规律,是分析电离层时空分布特征的一个重要角度。电离层的状态受到多种因素的影响,台风是引起电离层扰动的因素之一
积雪是冰冻圈中的一个主要元素,其对气候变化具有高度的敏感性和重要的反馈作用。积雪的高反射率特性影响着陆地表面的能量流通,进而影响全球和区域气候变化以及生态系统变化。政府间气候变化专门委员会(IPCC)在其第五次评估报告中声明:从1901年至2012年以来,全球平均地表温度加速升高。中国地域辽阔,是北半球积雪分布最广的国家,随着全球气候变暖,积雪对气候变化的动态响应成为影响我国社会经济和自然生态系统
预应力混凝土连续梁桥因其具有变形小、线形优美、易于养护、行车舒适、抗震性能良好等诸多优点,在各类桥梁建设中得到了广泛的应用。连续梁桥的施工方式大多数为悬臂现浇,施工周期较长,施工过程复杂,会受到多种因素的影响,因此会对主梁的内力及变形产生诸多不利影响,为了保证主梁线形符合设计及规范要求,成桥后的主梁内力接近设计理论值,确保桥梁安全施工,就需对桥梁施工进行全过程监控。本文在总结分析国内外学者研究的基
道路运输在综合交通运输体系中具有举足轻重的地位,发挥着不可替代的作用。但近年来,受高速铁路、民航、私家车等快速发展的影响,加之传统的道路旅客运输自身存在速度慢、环境差、服务质量低等问题,致使市场份额逐年下降,迫切需要转型升级,创新发展。随着以互联网为代表的现代信息技术广泛应用,“互联网+”道路定制客运这一新的道路客运模式应用而生,由于这是一种新的模式,尚处于起步阶段,缺乏相关的理论研究,因此,本文
学位
学位
中国作为一个能源消耗大国,冬季建筑供暖热负荷占能源消耗总量的很大一部分,近几年我国北方地区冬季供热模式主要有:热电联产、工业余热供暖、电采暖以及区域锅炉房。由于化石能源的过度使用导致环境不断恶化,雾霾频繁出现。随着我国经济发展,国民环保意识逐渐增强,各地政府相继推出有关节能减排等政策。北方城镇地区地理位置复杂,室外气候多变,经济条件有限,这些因素成为清洁供暖发展过程中亟需解决的问题。因此探索高效、
学位