基于概率图的非平衡数据的再平衡算法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:hui8554974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非平衡数据的分类问题是机器学习和数据挖掘领域的一个重要研究方向。少数类样本相对于多数类样本而言,数量少,但却含有更大的价值。在非平衡数据中,分类结果常偏向于多数类,降低了分类器的分类精度。针对非平衡数据的分类问题,已有很多学者考虑原样本数据的几何特征和空间分布情况,提出不同的过采样方法,但这些方法不涉及样本数据的统计特征,导致生成质量较差的样本,降低了分类精度。基于此,本文对非平衡数据提出了一种基于高斯混合模型-EM算法(GMM-EM)的概率图再平衡算法。首先,通过GMM与EM算法得到少数类、多数类数据的概率密度函数。之后,根据数据集的概率图(μ-σ图),对少数类数据进行安全性的划分,并根据安全性的高低赋予少数类数据的生成权重。然后,运用新提出的算法进行过采样。该算法不仅考虑数据的生成方向,而且保证了数据在平衡前后概率分布的一致性。最后,使用决策树分类器对平衡后的数据进行分类。实验结果表明,新提出的算法比现有的其它算法更有效。通过对新算法的进一步研究,我们得出原始数据非平衡率的大小影响着新算法的实验效果,非平衡率不宜过大或过小,当非平衡率1.48
其他文献
2.5D织物可作为高性能复合材料构件的预制体,具有仿形性能好、工艺成熟、加工效率高和成本低等优点。在航空、航天等领域,构件常采用2.5D回转曲面织物作为增强相。织物的加工工艺影响复合材料构件的使用性能,通过调整在芯轴表面的纱线阵列逐步成型2.5D回转曲面织物的加工方法称为依模仿形工艺。本文基于平面群P4mm的对称性推得一种2.5D织物结构,将其简称为P4mm-2.5D织物,将详细分析其结构的工艺可
反应釜广泛应用于化工、医药、食品等行业,作为压力容器可用来完成硝化、硫化、缩合、聚合等工艺过程,国内外反应釜控制的自动化程度偏低,如何对反应釜温度实现精确控制成为
扁穗雀麦是一种优质禾草,具有高产、生长快速、适应性强、抗旱的特点。同时,扁穗雀麦在水土保持、生态治理中也显示出广阔的应用前景。鉴于此,开发扁穗雀麦种质资源,研究其遗
随着人工智能时代到来,用户群体变化以及在线教育普及,高校图书馆信息素养教育形式和内容也应根据时代的变化、用户需求以及整个社会变化做出相应的转变,在线信息素养教育就
随着汽车行业内低能耗、环保及安全性要求的提高,其发动机、变速器等一系列关键核心零件也将技术升级。GFx自动变速器符合汽车行业发展趋势,其核心部件的构成组件产品将会有
普通高中英语课程标准(2017版)中明确提出“语言技能包括听、说、读、看、写等方面的技能。听、读、看是理解性技能,说和写是表达性技能。理解性技能和表达性技能在语言学习的过程中相辅相成、相互促进。”写作是衡量学生整体语言能力的重要指标,笔者基于支架理论、输入理论和输出理论,研究以读促写对英语写作教学的影响来讨论以下两个问题:1)“以读促写”能否提高学生的写作积极性?2)“以读促写”能否提高学生的写作
近十年,伴随着宏观经济的稳定持续发展,我国发电量和电力消费水平也是飞速增长。电力市场改革在推动电力行业的发展与进步的同时,也进一步加大了电网规划的难度。自2015年新
玉米细胞质雄性不育是杂种优势利用的重要种质资源,是研究核质互作的理想材料,具有重要的应用价值。且玉米CMS-C具有抗玉米小斑病T小种和育性相对稳定等优点,但目前CMS-C败育
目的:应用超声技术产前诊断胎儿肺囊腺瘤畸形(congenital cystic adenomatoid malformation,CCAM)并分型,计算瘤体体积与胎儿股骨长比值及瘤体体积与胎儿头围比值,评价CCAM分
近年来,随着经济的快速发展,人们在物质生活条件等方面不断提升,开始注重对其他方面的追求,因此在旅游方面的需求和消费在与日俱增。但由于我国各地区经济发展的不均衡性,经济结构过于单一,对新的产业结构发展重视程度不足,制约了旅游业的发展,阻碍了区域经济的可持续稳定发展。在此情况下,分析该区域旅游与经济的和谐发展,就非常重要。长江三角洲城市群是我国经济最繁荣的地区之一,2016年国家批准《长江三角洲城市群