论文部分内容阅读
随着对区域化探异常识别研究的深入,研究者提出了许多有效的区域化探异常识别方法。近些年来,随着该领域相关计算机技术的进一步深入研究,新的数据挖掘分类方法逐渐被引入到区域化探异常识别中,并取得了较好的成效。
区域化探异常数据往往为非均衡数据,即数据集中的非矿点数据远远多于矿点数据。如果要用传统的机器学习分类方法如遗传算法、贝叶斯网络、人工神经网络、支持向量机、K近邻分类等对此类非均衡数据进行分类,由于数据自身的非均衡特点,这些分类算法将倾向于将数据集的全部数据划分为多数类样本并忽略少数类样本,而使这些分类算法难以达到令人满意的预测效果。由于在实际应用中,区域化探异常数据中的少数类样本才是矿点数据,为研究者真正的关注焦点,因此传统的分类算法不能满足区域化探异常识别领域的需求。
目前针对非均衡数据分类问题的处理方法,传统机器学习大致可以分为两个层面:算法层面和数据层面。在算法层面主要是对现有分类器的分类算法进行改进,通过改变分类边界、调整不同样本间的代价函数、针对不同类别样本数据设置不同权值等方法使分类算法在分类过程中对少数类样本更有利,以最终实现提高分类性能的目的,现阶段比较成功的改进算法有代价敏感学习、改进支持向量机、单类学习算法以及集成学习。在数据层面主要是通过对原始数据集进行预处理操作,达到将非均衡数据集平衡为均衡数据集的目的,根据操作数据集中数据类别的不同,分为处理非均衡数据集中少数类样本的过取样方法和处理非均衡数据集中多数类样本的欠取样方法。本文在充分研究机器学习理论、数据挖掘理论、不均衡数据挖掘问题特点及解决方案、评估策略、现有解决方法等问题的基础上,从数据层面的过取样角度着手,对已有的不均衡问题重取样算法进行改进,并进一步提出新的过取样算法,以达到均衡数据集的目的,最终使新的分类器对于不均衡数据集分类有很好的分类效果。
本文提出两种新的样本过取样算法:
1.基于分形的改进SMOTE过取样算法(FSMOTE)。论文仔细研究了传统解决非均衡数据问题的合成少数类过取样SMOTE(SyntheticMinorityOver-samplingTechnique)算法,该算法在一定程度上能够引入部分新样本数据信息。但该算法考虑原始样本的分布规律时相对简单,因此在产生合成样本点的过程中存在一定的随机性和盲目性。由于分形理论能够描述传统欧几里得几何不能描述的极其不规则和复杂的对象,并且在分形图形中,局部部分与整体之间具有一定的相似性,且局部部分能服从整体的特征分布。本文在此基础上,提出基于分形的改进SMOTE过取样算法,该算法将分形算法与经典的SMOTE算法结合,在合成新样本数据过程中,使用分形策略取代原先SMOTE算法随机在两少数类样本点间产生新样本点的策略。与传统SMOTE算法相比,该算法有以下优点:(1)FSMOTE算法合成新样本点的过程中使用了分形策略,使得新合成的新样本点具有一定的规则性与相似性,能够遵循原先少数类样本点的分布规律,从而有效控制了合成样本点的质量;(2)该算法能够根据样本集数据的数据,自动调节实验需要的样本数目,操作简单有效;(3)在操作名词性属性数据时,通过添加新的处理规则,使算法能够同时适用于数值属性及名词属性;(4)该算法使用F-measure和AUC作为判断算法优劣的评价指标,排除了传统算法使用正确率作为评价指标的片面性。本文在11组UCI标准数据集上做了相关的仿真实验,表明该算法比单纯的使用SVM算法和传统的SMOTE-SVM算法有更好的分类效果,验证了算法的有效性。
2.基于PCA-EDAs算法的过取样算法。针对传统的过取样算法没有考虑原始样本数据分布的问题上,该算法在分析分布估计算法(EstimationofDistributionAlgorithms,EDAs)的基础上,灵活地将主成分分析算法(PrincipalComponentAnalysis,PCA)与EDAs算法结合。新算法首先使用PCA的方法,根据样本集内部分布特征建立少数类样本的分布模型,然后根据分布估计算法(EDAs)思想,按原始样本点分布模型随机合成新样本数据,并与原始数据一起参与分类器的训练。该方法与传统方法相比具有以下优点:(1)不同于传统EDAs使用数据概率建立模型的方法,本文使用PCA的方法建立确定性模型和正态分布建立随机模型的方法,使模型更具有推广意义;(2)使用全体数据建立统计模型生成新样本点合成新样本点,消除了仅使用个别样本合成新样本数据的盲目性。通过在12组UCI标准数据集上的仿真实验,表明该算法提高了分类器的分类正确率,证明了该算法的可行性和有效性。
本文成功将所提出的两种新算法用于区域化探异常识别研究领域,两种算法的预测结果与实际情况基本相符,说明了本文提出的两种样本重取样算法对于区域化探异常识别是可行的。