基于聚类的非平衡数据欠采样算法研究及应用

来源 :山西大学 | 被引量 : 1次 | 上传用户:naizhi1006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据分类是机器学习和模式识别方面的一个重要研究方向,在欺诈检测、医疗诊断等领域具有广泛的应用价值。非平衡数据分类问题是指对于数据集来说,类的分布具有倾斜性,多数类的数据样本覆盖性的多于少数类样本数量,少数类样本往往更具有研究价值,需要给予少数类足够的重视,而使用传统的分类方法不能很好的解决,因此研究基于非平衡数据的分类问题是近年来的一个研究热点。本文针对非平衡数据集,研究了基于密度的欠采样方法,在此基础上进行分类,并并在故障检测中进行了应用,实现了基于IIS日志的故障检测系统。本文的主要工作如下:1)提出了一种基于密度的欠采样方法-US-DP,该方法对多数类样本进行密度聚类,按照密度峰值对样本进行排序,选择具有较高密度峰值的样本,然后与少数类样本集合成新的样本集,进而针对采用后的数据集构造分类模型。该方法以密度为基础,根据数据分布的稠密与稀疏,尽量选取稠密分布的数据的聚类中心,从而可以减少噪声点的影响。同时通过对本文提出的方法进行实验验证,表明该方法对于非平衡数据分类具有较好的效果。2)通过使用JSP+Servlet+JDBC技术实现了基于IIS日志的故障检测系统,该系统分为四个功能模块:用户登录模块,数据预处理模块,数据通过分析模块,结果可视化模块。系统首先对日志数据进行处理,使其属性和格式可以得到转化;然后再用采样方法(随机欠采样、K-Means、Tomek links、US-DP)进行处理,并使用分类算法(C4.5,3-NN,Naive Bayes),进行分类。
其他文献
湿度的应用范围广泛,从最初的气象测定和粮食仓储,到工业(包括电子、机械、汽车、纺织等)生产、农业种植、医药行业和暖通调节,再到发变电、国防军事和航天工业等诸多领域。
近年来,辽宁省畜牧业保持良好发展态势,主要畜产品供给量不断提升,畜牧业也成为农民增收的重要来源。但是2018年8月初第一例非洲猪瘟疫情的发生,对生猪产业乃至整个畜禽市场
重力梯度仪是实现更高精度、更高分辨率地球重力场模型构建的重要设备,在军、民领域都有极强现实意义和广阔应用空间。本文以旋转加速度计重力梯度仪中的核心——重力梯度传
粮库是储存粮食的重要基地,目前智慧粮库中广泛使用的安防系统没有识别功能,对于粮库内运粮车辆时常出现的“换车回皮”、“检甲卖乙”等作弊行为难以有效监控,不仅需要专业
在高分子材料中,填充了纳米粒子的复合材料在光学、力学等方面有着更加优异的性能。近年来也有诸多的科研工作者围绕着纳米复合材料开展了相应的工作。作为聚合物纳米复合材
论述了在冶金企业普遍存在的大吨位起重机供电系统压降损失较大的问题,通过详细地测量数据分析和计算,制定了具体的解决措施,实施后取得了良好的效果。
图像识别就是从图像库中筛选出特定的目标图像。目前图像的识别方法主要有机器视觉和人工判读。前者借助计算机强大的执行能力,能够实现图像的快速检测,但在一些背景相对比较
本文主要对地下水流动数学模型中积分算子特征值问题的数值算法展开研究.讨论用多尺度小波Galerkin快速算法对特征值问题进行数值逼近.全文共分为四章.第一章,我们主要介绍特
众所周知,金属铂因其催化活性高,一直作为直接甲醇燃料电池首选的阳极催化剂。但是纯铂作为阳极催化剂具有两个致命的缺点,限制了甲醇燃料电池的商业化应用。第一,由于金属铂
肯尼亚地热井的固井工程主要面临温度特别高、裂缝特别发育、回填次数特别多的“三特”复杂局面,导致该地区的施工工期长,固井质量差,不利于提高经济效益和地热井的寿命,因此