【摘 要】
:
类不平衡数据指的是在类别上有偏斜的数据,近年来类不平衡数据的处理已成为统计研究的一个热点。现实生活中许多数据往往都呈现出高度不平衡的特性,如何提高类不平衡数据中的分类性能是我们亟需解决的问题。通常地,传统的分类算法是以数据集平衡状态为前提的,它们对于平衡数据或均匀分布的数据其分类效果良好,但是对类不平衡数据的分类表现出较差的效果。为了解决该问题,本文从再平衡的角度对类不平衡数据展开研究,以期来提高
论文部分内容阅读
类不平衡数据指的是在类别上有偏斜的数据,近年来类不平衡数据的处理已成为统计研究的一个热点。现实生活中许多数据往往都呈现出高度不平衡的特性,如何提高类不平衡数据中的分类性能是我们亟需解决的问题。通常地,传统的分类算法是以数据集平衡状态为前提的,它们对于平衡数据或均匀分布的数据其分类效果良好,但是对类不平衡数据的分类表现出较差的效果。为了解决该问题,本文从再平衡的角度对类不平衡数据展开研究,以期来提高少数类样本的识别率,进而提高类不平衡数据的分类性能。此外,当数据同时呈现出高维和不平衡性的双重特性时,会使数据的预处理过程变得更加困难,高维中的变量选择问题仍然是一个挑战,针对该问题,提出了基于Subsampling的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。本文研究的主要内容包括两方面,一是基于再平衡的思想处理类不平衡数据,二是类不平衡数据的变量选择。主要工作与创新点包括以下几个方面:一、对类不平衡数据的预处理方法进行了总结,分析了基于支持向量机分类器的数据特征及面临的问题。对高维数据的变量选择方法进行归纳和总结,并对各种方法的优缺点进行分析。二、基于再平衡策略的理论和实验分析,对典型的再平衡改进方法如何提高类不平衡数据的分类性能进行理论分析,即对重采样技术及其改进算法的局限性进行归纳总结。对再平衡方法预处理前后两种情况下的分类性能进行对比性研究。在真实数据实验研究中,对建立的模型确定最优参数,在代谢组学数据中选取部分非均衡样本数据集,进行预测性能比较。研究结果均表明进行再平衡方法处理后够提高分类器的分类性能。三、提出了基于精确率-召回率曲线(PRC)为评价准则的稀疏正则逻辑回归(SRLRS)的稳健变量选择方法。目前,针对高维类不平衡数据的变量选择方法相对较少,尤其是将稀疏正则化变量选择方法应用到代谢组学的中的研究更少。SRLRS考虑到了类不平衡数据的特征,在交叉验证时使用分层交叉验证,并在Subsampling抽样中使留半-留一法(LHO-LOO)。模拟研究和真实数据研究显示了SRLRS结合PRC准则的变量选择方法很适合处理类不平衡数据。
其他文献
中国页岩气在勘探开发方面已经取得了明显成效,但对于页岩气地球化学特征的研究几乎属于空白。明确页岩气的地球化学特征,对页岩气的成因研究、气源鉴别和富集规律有重要意义。本文采集国内页岩气数据67个,来自四川盆地和鄂尔多斯盆地主要页岩气产层,同时,搜集文献报道的美国页岩气数据315个,对这些数据整理、制图和分析,结合大量北美报道的页岩气研究成果,研究中国典型页岩气地球化学特征。四川盆地龙马溪组页岩气为干
分类是给遥感影像中每一个像元赋予唯一特定标识的技术,也是高光谱遥感影像处理和应用的一个重要领域。提取分类的有效特征一直是高光谱影像分类面临的挑战。早期高光谱影像分类使用的是高光谱影像的光谱信息。随着遥感技术的发展,高光谱影像的空间分辨率增加,空间信息在高光谱影像分类中的应用开始发展。空间特征和光谱特征的联合使用缓解了高光谱图像中“同物异谱,同谱异物”问题,因此空谱(空间-光谱)特征是高光谱影像分类
近年来,在习近平总书记提出的“一带一路”倡议的背景下,中国不断强化与世界的联系,加强与世界的纽带关系。中国文化复兴口号的提出,使得艺术行业蓬勃发展,众多的艺术家先后
公安机关作为维护社会治安、服务人民群众的关键行政执法部门,其工作的复杂性和重要性决定了在公安系统内部实施绩效考核具有十分重大的意义。为了实现公安绩效考核的信息化和透明化,促使公安部门更好地服务人民群众,通常采用绩效考核,能够提高部门以及个人自身的能力。通过构建公安绩效考核系统,进而建立科学合理的公安绩效考核体系,利用信息化手段解决公安机关绩效考核中的复杂性,是公安机关提升管理水平和工作效率的重要途
User authentication plays very role in computing system.In this thesis,firstly we studied Smart Card and user authentication and smart card based authentication
在现代商业实践中,动态定价是一种被频繁使用的营销策略,但是价格变动也会引起价格不公平感,从而导致消费者的负面口碑、购买意愿降低、转换购买甚至报复行为等不利后果。自我构建是文化心理学研究的重要概念,是人们如何看待自己和他人及环境关系的核心构念,也是人类社会互动与人际关系的重要基础,对信息加工、社会认知、偏好构建和行为决策等人类心理和行为的诸多方面都具有广泛的影响。消费者的价格公平感知通常是基于比较来
进入二十一世纪以来,人工智能技术飞速发展,应用场景不断丰富,人工智能在内容生成方面也开始大放异彩。其是否与人类作品一样共同受到著作权法的保护呢?著作权归属于何方呢?种种问题在当前的著作权法当中难以找到答案,新技术时代科技与法律的碰撞亟需学界给出一条新技术的法律规制之道。针对人工智能生成内容的著作权保护问题本文从以下三个方面展开了具体阐述:第一,人工智能生成内容著作权保护的必要性分析。人工智能生成的
本论文以核工业集团“龙灿工程高精度物化探勘查”项目为依托,以江西相山铀矿田西部河元背研究区为研究对象,开展了典型岩石物性特征分析测试、断裂构造、组间界面、深部构造格架推测解译等地质地球物理研究工作,最终结合透岩浆流体理论、三维地质-地球物理模型和元素地球化学成果对该区铀成矿有利部位进行远景分析。通过对相山火山盆地1400多块典型岩石物性样品进行密度、磁化率和电阻率等物性参数的测试,绘制了四大类典型
随着军队信息化水平的不断提高,运用计算机仿真技术来对装备性能和战争推演进行预测变得十分关键。某单位为了加快装备研制,提出了“舰艇作战仿真”这一需求。在仿真过程中仿实体会实时产生大量的数据,对仿真数据的快速处理和直观展示将对研究人员产生重要的指导意义,因此对仿真数据进行科学可视化处理就变得十分重要。该论文设计并实现了“舰艇作战仿真”的科学可视化处理。论文以数据可视化理论和面向对象软件理论为基础,并采
在经济迅猛发展过程中,人类对资源的消耗和环境的破坏导致了一系列的全球性生态环境问题。遥感技术由于具有连续性、实时性、覆盖广、不受地形地势约束、手段多、信息量大等特点而成为生态环境监测的重要手段之一。其中,遥感图像变化检测技术是利用覆盖同一地表区域的多时相遥感影像及其它辅助数据来分析和确定土地、水体、植被等地物变化的过程,已被广泛应用于民用及军事领域,对于促进全球经济可持续发展和人类社会活动具有重大