面向不平衡数据集的线性分类方法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:mirowtg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
平衡是相对的,不平衡是绝对的。目前,不平衡数据集分类问题已成为机器学习领域的研究热点之一。线性分类方法是最基本的模式识别方法之一,其特点是结构简单,学习和决策速度快,计算复杂性低,因而得到了广泛的应用。本文以经典的机器学习数据库、手写数字、二维元音等大规模数据集为应用背景,研究面向不平衡数据集的线性分类理论、方法与实现问题,主要研究Fisher线性判别式(FLDs),辅之于研究伪逆法和单层神经网络虚拟平衡算法。本文的主要工作如下:  一、重点研究了权值w,阈值θ和输入数据阵X对FLDs学习和推广性能的影响。具体包括:  (a)从理论上指出,在投影方向w上的最小二乘点(也称总投影均值点)和投影均值中点这两个阈值在几何意义上是不合理的,并通过实验进行了验证。在此基础上,提出了一系列阈值计算经验公式,并依据经验风险最小原理从中确定一个优化的。这个阂值优化公式同时考虑类别间样本数量和分布区域不平衡这两个因素。  (b)建立了一种二一十进制混合编码系统。该特征表示方法在保持训练数据集内部结构几乎不变的前提下,使那些非常稠密的数据集变得稀疏起来并使类间隔尽可能大。依据1-近邻分类器识别率的变化大小来判断训练集内部结构是否因不同特征表示方法而变化。  (c)提出了对那些使类内散度阵Sw奇异或接近于奇异的数据集X应施加主成分分析(PCA)等特征提取处理,而不应加扰动的观点。认为,为保持原始数据集的内部结构,提取的特征应足够多,累计变差贡献率应达到99%或以上。  (d)提出了步数有限(至多3步)的迭代FLDs以进一步优化投影方向和阈值。认为,传统的FLDs所求得的投影方向和阈值不一定是最优的,迭代后的投影方向和阈值是否被接受的前提条件是由此得到的训练子集的分类错误率是否下降。  (e)提出了一种集成型FLD,综合采用了阈值优化选择、二-十进制混合特征表示、基于PCA的特征提取和有限次迭代策略。  二、比较了伪逆法与FLDs之间的关系,认为它们在一般情况下是不相等的;国际知名教材《Pattern Classification》在假设同类别训练样本期望输出均相等的特定情况下关于二者等价的证明是没有实际意义的。在此基础上,提出了一种迭代伪逆法,有效减轻了不平衡数据集的不利影响。  三、分析了在不平衡数据集情况下,基于传统误差反传算法的神经网络在迭代学习过程中决策边界的偏移情况,并在此基础上,提出了误差反传算法的虚拟平衡方法。  四、用上述线性分类器,再加上线性核支持向量机,对经典的机器学习数据库、手写数字、2维元音等大规模数据集进行了大量实验分析和比较。实验结果表明,本论文提出的关于线性分类器的优化方法是相当有效的;对很多实际问题,本文提出的线性分类方法的识别率甚至优于多层神经网络、径基函数(Radial BasisFunctions)神经网络、Gaussian核和多项式核支持向量机等非线性分类器。  总之,本论文的工作表明,再也不能认为传统Fisher判别式是合理的了;再也不能认为FLDs判别式总投影均值点和投影均值中点这两个阈值是合理的了;再也不能认为对奇异或接近奇异的数据集加微小扰动是合理的了。可以通过阈值选择、稀疏编码、PCA、有限次迭代、虚拟平衡等策略进一步提高线性分类器的学习和推广能力。  本文方法可以推广到一般非线性分类器。
其他文献
作为隐私保护的重要手段,匿名鉴别机制引起了各界的广泛关注,口令鉴别作为应用最广泛的鉴别方式,研究设计仅依赖于口令的匿名鉴别系统具有重要意义。在此背景下,国际标准化组织IS
Maze文件共享系统是北京大学网络实验室在2005年发布的一款软件,主要服务于教育网的用户,它是一款基于P2P的软件,同时Maze也是一个很好的研究P2P的平台。用户下载并安装Maze
当前随着因特网技术的高速发展与广泛应用,虚拟社区已经成为个人或组织间交流信息、共享知识的重要手段。在以知识共享为目的的虚拟社区中,社区成员既是知识的提供者,又是知
随着互联网的不断发展,越来越多的网页成为了历史网页,这些网页虽然很少能被查询到,但其中依旧蕴藏着丰富的知识。中文历史网页库(Web InfoMall)保存了超过50亿的中文历史网
高分辨率遥感影像目标检测是分析理解影像、自动提取和处理影像中目标信息的重要手段,是军事对抗中捕获战略打击军事目标和智能化民用系统(如灾害监测、资源勘查、海事渔业、交
近些年来,小卫星由于其体积小、成本低、研制周期短等独特的优势,受到了国内外研究者的广泛关注,并被逐渐应用于军事、科学研究等领域。随着小卫星技术的发展,投入使用的小卫星数
随着数字化文本信息在当今时代的广泛普及和应用,文本图像结构和内容的智能分析逐渐成为图像处理和计算机视觉领域的研究热点。表格,作为数字文本图像中经常出现的一种信息表
学位
随着信息化建设的发展,当今社会对汉字信息化的需求日益增加。汉字作为使用人数最多的语言,历史悠久、总量庞大,现存字符集标准已包含7万余字,据专家估计,汉字总量超过30万,
地理学家需要长期从事地理建模工作,这是一项长期的基础性工作。国内外的许多地理学家从不同的研究领域出发,建立了许多的地理模型。一方面这些模型存在着语义、建模方法、运行