基于不均衡数据挖掘算法的区域化探异常识别研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:hyb332145820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对区域化探异常识别研究的深入,研究者提出了许多有效的区域化探异常识别方法。近些年来,随着该领域相关计算机技术的进一步深入研究,新的数据挖掘分类方法逐渐被引入到区域化探异常识别中,并取得了较好的成效。   区域化探异常数据往往为非均衡数据,即数据集中的非矿点数据远远多于矿点数据。如果要用传统的机器学习分类方法如遗传算法、贝叶斯网络、人工神经网络、支持向量机、K近邻分类等对此类非均衡数据进行分类,由于数据自身的非均衡特点,这些分类算法将倾向于将数据集的全部数据划分为多数类样本并忽略少数类样本,而使这些分类算法难以达到令人满意的预测效果。由于在实际应用中,区域化探异常数据中的少数类样本才是矿点数据,为研究者真正的关注焦点,因此传统的分类算法不能满足区域化探异常识别领域的需求。   目前针对非均衡数据分类问题的处理方法,传统机器学习大致可以分为两个层面:算法层面和数据层面。在算法层面主要是对现有分类器的分类算法进行改进,通过改变分类边界、调整不同样本间的代价函数、针对不同类别样本数据设置不同权值等方法使分类算法在分类过程中对少数类样本更有利,以最终实现提高分类性能的目的,现阶段比较成功的改进算法有代价敏感学习、改进支持向量机、单类学习算法以及集成学习。在数据层面主要是通过对原始数据集进行预处理操作,达到将非均衡数据集平衡为均衡数据集的目的,根据操作数据集中数据类别的不同,分为处理非均衡数据集中少数类样本的过取样方法和处理非均衡数据集中多数类样本的欠取样方法。本文在充分研究机器学习理论、数据挖掘理论、不均衡数据挖掘问题特点及解决方案、评估策略、现有解决方法等问题的基础上,从数据层面的过取样角度着手,对已有的不均衡问题重取样算法进行改进,并进一步提出新的过取样算法,以达到均衡数据集的目的,最终使新的分类器对于不均衡数据集分类有很好的分类效果。   本文提出两种新的样本过取样算法:   1.基于分形的改进SMOTE过取样算法(FSMOTE)。论文仔细研究了传统解决非均衡数据问题的合成少数类过取样SMOTE(SyntheticMinorityOver-samplingTechnique)算法,该算法在一定程度上能够引入部分新样本数据信息。但该算法考虑原始样本的分布规律时相对简单,因此在产生合成样本点的过程中存在一定的随机性和盲目性。由于分形理论能够描述传统欧几里得几何不能描述的极其不规则和复杂的对象,并且在分形图形中,局部部分与整体之间具有一定的相似性,且局部部分能服从整体的特征分布。本文在此基础上,提出基于分形的改进SMOTE过取样算法,该算法将分形算法与经典的SMOTE算法结合,在合成新样本数据过程中,使用分形策略取代原先SMOTE算法随机在两少数类样本点间产生新样本点的策略。与传统SMOTE算法相比,该算法有以下优点:(1)FSMOTE算法合成新样本点的过程中使用了分形策略,使得新合成的新样本点具有一定的规则性与相似性,能够遵循原先少数类样本点的分布规律,从而有效控制了合成样本点的质量;(2)该算法能够根据样本集数据的数据,自动调节实验需要的样本数目,操作简单有效;(3)在操作名词性属性数据时,通过添加新的处理规则,使算法能够同时适用于数值属性及名词属性;(4)该算法使用F-measure和AUC作为判断算法优劣的评价指标,排除了传统算法使用正确率作为评价指标的片面性。本文在11组UCI标准数据集上做了相关的仿真实验,表明该算法比单纯的使用SVM算法和传统的SMOTE-SVM算法有更好的分类效果,验证了算法的有效性。   2.基于PCA-EDAs算法的过取样算法。针对传统的过取样算法没有考虑原始样本数据分布的问题上,该算法在分析分布估计算法(EstimationofDistributionAlgorithms,EDAs)的基础上,灵活地将主成分分析算法(PrincipalComponentAnalysis,PCA)与EDAs算法结合。新算法首先使用PCA的方法,根据样本集内部分布特征建立少数类样本的分布模型,然后根据分布估计算法(EDAs)思想,按原始样本点分布模型随机合成新样本数据,并与原始数据一起参与分类器的训练。该方法与传统方法相比具有以下优点:(1)不同于传统EDAs使用数据概率建立模型的方法,本文使用PCA的方法建立确定性模型和正态分布建立随机模型的方法,使模型更具有推广意义;(2)使用全体数据建立统计模型生成新样本点合成新样本点,消除了仅使用个别样本合成新样本数据的盲目性。通过在12组UCI标准数据集上的仿真实验,表明该算法提高了分类器的分类正确率,证明了该算法的可行性和有效性。   本文成功将所提出的两种新算法用于区域化探异常识别研究领域,两种算法的预测结果与实际情况基本相符,说明了本文提出的两种样本重取样算法对于区域化探异常识别是可行的。
其他文献
实时系统和普通计算机系统一样具有满足系统在逻辑计算中完全止确的特性,还需具有任务在其结束时间限前必须完成执行的特殊特性。实时系统具有的计算准确性和完成任务及时性,
随着网络的发展,人们对传统的通信技术(CT)已不再满足,以IP网络为基础的信息通信技术(IT)展现出了强大的生命力,为改善人们的通信体验,将CT与IT进行统一的信息整合技术-统一
学位
在仪器设备数量和类型不断增长的趋势下,越来越多的高校、科研院所和公司都开发了专用的仪器设备管理系统来取代人工管理模式。仪器设备管理系统的广泛应用,极大的提高了设备
互联网上大量信息的产生被人们称之为信息爆炸,人们已经无法手工对这些海量信息进行处理,因而迫切需要计算机对其进行自动分类、压缩和提炼。文档自动摘要(documentsummarizati
随着城市化进程的迅速加快,燃气管网规模的进一步扩大。建立燃气管网地理信息系统,加强燃气管网信息化管理,对于保障城市和谐发展,人民安居乐业具有十分重要的现实意义。而燃
当前,无线网络发展的一个重要趋势是从单跳无线网络发展为Mesh和Ad Hoc等大规模多跳无线网络。相比于单跳无线网络,多跳无线网络的网络拓扑和无线链路间的数据传输冲突关系远
虚拟人动作合成是利用计算机技术模拟人运动的过程,在多媒体领域有着广泛重要的应用,如影视特效、动漫、视频游戏以及虚拟现实等。目前,虚拟人动作合成主要有三类方法:交互式
卫星移动通信网络作为卫星移动通信业务的基础支撑系统,综合利用了现代通信技术、计算机技术、航天技术和半导体集成电路技术,是当前通信领域发展非常迅速的方向之一。它具有许
随着经济和社会的发展,网络已经成为我们生活中必不可少的一部分,我们的生活、学习和工作中都有网络。互联网应经成为全世界最大的网络,而网络的连接是通过各种媒介完成的,从原始