不平衡数据的SVM分类研究及在高校贫困生识别的应用

来源 :华侨大学 | 被引量 : 0次 | 上传用户:hobbycui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前互联网信息时代,人们在现实生活中每天都会产生大量可用且有价值的数据,如何从这些数据中发掘内在与外在相关性并抽取有益信息是当前数据挖掘与人工智能研究的热点。数据的分类是机器学习领域的一个最基本也是最重要的研究之一,它是各个实际应用中不可或缺的一个重要环节,但实际的数据分布往往是不平衡的,很多算法对不平衡数据的分类表现差强人意。支持向量机(SVM)算法是一个基于统计学理论和结构风险最小化理论的重要机器学习分类算法,它寻求的最优分类超平面是由支持向量决定的,而支持向量的数量同样本类别的数量成正比,这导致了SVM在样本数量不均衡的情况下会出现对少类样本分类较差的问题。针对基于SVM的不平衡数据分类问题,本文的研究工作主要包含如下几个方面:一、探讨基于统计学理论的机器学习算法的基本原理,分别包括基于经验风险最小化的人工神经网络和基于结构风险最小化的SVM算法。重点分析SVM算法,并总结SVM的研究进展。二、分析不平衡数据分类的问题本质,总结SVM算法在解决不平衡数据分类问题的各种方法。三、详细对抽取的高校学生校内消费数据进行了预处理与特征分析。建立基于人工神经网络和决策树的高校贫困生等级识别模型,为了分析SVM算法在小数据集中的特性,制作了小数据集,作为SVM算法的对比实验数据集。四、建立基于SVM算法的高校贫困生等级识别模型。主要从数据层面和算法层面处理不平衡数据分类问题,在数据采样处理基础上,提出了结合数据采样和集成学习的NCRBoost-SVM算法,在大小数据集中,对多个模型进行对比分析。实验的结果表明SVM在小数据集中的表现较好,经过欠采样处理能提升SVM分类效果,且提出的算法可能得到更好的结果。
其他文献
随着城市建成区域的面积逐渐增大,城市气象条件与下垫面条件发生改变,城市水文水力特性发生改变,从而引发了等一系列水安全问题。雨水花园是一种典型的海绵城市LID集中入渗设
戚风蛋糕是常见的蛋糕品种之一,其主要成分为小麦粉、鸡蛋蛋清、白砂糖、植物油。在高温烘焙条件下,蛋糕中的油脂、蛋白质及糖类会发生一系列化学反应,包括油脂氧化、美拉德
碳纤维因其优异的机械性能、化学稳定性和广泛用途已受到了广泛关注,越来越多的人开始关注它的表面处理和改性研究。碳纳米材料不仅仅具有纳米材料小尺寸效应、表面效应、量
变压器油作为重要的液体绝缘介质,提高其绝缘性能对于变压器的稳定运行和整个电网的安全至关重要。纳米四氧化三铁在提高变压器油的绝缘性能方面已显示了很大的潜力,目前国内
汉字,是世界上最古老的,也是迄今为止连续使用时间最长的主要文字,作为一种书写文化载体,它记载了中华民族5000多年连绵不断的文明历史和博大精深的中华文化,由此可见汉字在
热电材料是将热能和电能直接相互转换的功能材料,是缓解能源危机和环境问题的理想材料之一。近年来,单晶SnSe极低的热导率和适中的电输运性能使其具有高的热电优值,引起人们
近年来的大量研究表明,大多数国家的股权是集中或相对集中的,并且普遍存在着终极控股股东。终极控股股东往往利用金字塔结构、交叉持股及双重股份等形式以较小的现金流权获得
楠木树矿床地处秦岭造山带南侧、扬子板块北缘,米仓山隆起带东段;矿体赋存于灯影组上段角砾白云岩中,产出状态明显受地层、破碎带等控制。矿石中矿物组成简单,金属矿物以闪锌
近些年来,Copula理论在国内外取得巨大发展,Copula理论在多元时间序列中的应用也逐渐成熟.将Copula理论与GARCH模型相结合构造多元波动率模型,能够很好地反映金融时间序列的
本文主要研究了传统的关联模型、Goodman-Kruskal的τ和λ模型、监督离散化方法,并提出新的前进的监督离散化方法.假设我们的数据集包含一个连续的因变量和连续或分类的高维