基于线性规划对集成分类器margin分布的优化研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:jiaguwenshurufa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
好的泛化能力是分类器研究的最根本目的。集成多个基本分类器以获好的泛化性能是近些年分类器研究领域的热点。AdaBoost算法是提出较早,并且泛化性能也很好,获得很大成功的集成分类器算法。它在大量标准数据集和实际应用中显示了优异的效果,吸引了众多学者进行研究,并得到的大量成果。最有影响的工作之一是margin理论。此理论建立了投票分类器的泛化错误的上界,该上界依赖于训练样本的margin分布,而不依赖于迭代次数。这个理论与实践、与直观都很符合。但是,Breiman证明了一个更紧的上界,只与最小margin相关,从而强调更应该只关注最小margin。Breiman的算法arc-gv即优化了最小margin,其泛化能力却不能与最小maxrgin理论预测相一致,常常比AdaBoost的泛化能力差。这使得margin理论受到强烈质疑。平衡margin(简称Emargin)对Breiman的质疑给出回答:Emargin是一种新的margin度量,基于Emargin的新上界较之Breiman的基于最小margin的上界一致紧。说明最小margin对于泛化能力不是最重要的,Emargin是更好的泛化能力衡量标准。   为验证Emargin理论在实际数据集上对泛化能力的指导作用及优化Emargin上界,本文进行以下工作。第一,在标准数据集上比较AdaBoost和LP-AdaBoost,实验结果显示,Emargin理论的预测结果比最小margin的预测结果更符合实际错误率大小,这与我们的理论基本相符。第二,我们最小化Emargin上界,对现有投票分类器的组合系数进行优化,使得新组合的Emargin上界值更小,具更好的泛化能力。本文设计了LP-MME和LP-MEM算法来直接优化Emargin上界。优化基于坐标下降方法和用hinge loss来近似0-1损失,将组合优化问题转化为线性规划,使得计算效率很高。第三,不同于之前优化margin分布的算法,这两个算法可以确保margin分布的左侧分位数得到优化。又由于算法优化了已知的最紧上界--Emargin上界,所以从理论上算法得到的组合系数是最优的。第四,算法在大量标准数据集与多种投票分类器上进行的测试既进一步验证了Emargin理论,又取得了更好的泛化能力。
其他文献
网络层析成像因能在无需中间节点协作的情况下,通过端到端测量数据估计出网络内部链路准确的性能参数,受到了广泛的关注。但是并非所有的网络管理和维护工作都需要获得内部链
合成孔径雷达(Synthetic Aperture Radar,SAR)的自动目标识别(Automatic TargetRecognition,ATR)技术在战场感知方面非常重要,是国内外研究的热门课题。复杂目标的SAR回波和
学位
新一代基于人工智能的认知电子战技术代表着未来信息作战的重要发展方向,雷达电子侦察是认知电子战系统的重要组成,也是获取非合作情报信息的主要手段。作为雷达电子侦察的任务
随着计算机技术和网络技术的发展,人们对实时信号处理、大规模科学与工程计算提出了更高的要求,此时,并行计算机的出现为这些问题提供了很好的给解决办法,越来越受到人们的重
信息技术正以革命性的方式推动着社会的进步和发展,伴随着信息技术的快速发展和人们对其依赖程度的不断增加,信息安全问题也日益凸显。信息安全事关国家安全和社会稳定,它包括信
众所周知,在大科学工程的管理中,项目的管理及档案信息的检索占据了重要的地位。上海光源(ShanghaiSynchrotronRadiationFacility,SSRF)作为一项大科学装置和大科学平台,它采
学位
随着互联网的飞速发展,每天都有海量数据出现。帮助人们从海量数据中迅速而准确地获取最需要的信息,成为亟待解决的重要问题。主题信息能够在一定程度上反映数据的高层信息,
随着移动通信技术不断向4G演进,作为解决小区边缘用户小区间干扰(Inter-cell Interference,ICI)的重要技术方向,协同中继技术和协同多点传输/接收(Coordinated Multi-Point t
毫米波雷达具有体积小重量轻、精度高、抗干扰能力强等优点,是世界各主要发达国家军事发展的重要研究内容之一。三毫米波段作为毫米波段的一个重要大气窗口,其军事用途的研究
学位
学位