基于支持向量机问题求解的并行SMO算法研究和实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ancdtang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着AMD和Intel陆续推出多核CPU,算法对并行计算的需求更加迫切。在数据挖掘领域中,支持向量机(SVM)由于其在分类和时间序列挖掘等应用领域中的高准确度而为业界普遍推崇,但同时由于SVM中核矩阵规模平方正比于训练集规模,导致了高度密集计算模型从而使得大规模SVM问题训练时间过长,为加快算法的训练速度,更好适应多核时代并行计算特点,改进算法的一个重要方向是并行化实现求解大型支持向量机。 本文从SVM数学模型的最优化理论出发,介绍了SVM相关算法中频繁使用到的KKT条件和对偶理论,在此基础上以最大间隔原则为基本出发点,分别从惩罚和非线性空间映射的角度引入了几类常用的分类机,然后综合自然地推导出了一般意义上最为常用的支持向量机模型。 在SVM基础模型的理论基础上,本文重点的介绍了SVM问题的基本解法和在基本解法基础上延伸的大规模SVM问题的处理技巧,如选块算法,分解算法等。串行序列最小优化算法(SMO)是在分解算法的基础上,采取固定工作集大小为2的策略得到的优化算法。由于串行SMO存在并行计算结构,在实验证明的基础上我们给出了并行SMO算法的设计方案:串行SMO算法中选择其中2个更新向量的计算可以并行处理,大量消耗在串行SMO算法的中间数组的更新上的CPU时间可以采取并行计算策略;并行SMO采用了LibSVM中的缓存和收缩的策略加快并行和训练速度,它由主控CPU将原始训练集均匀的分配各受控CPU上以近似独立的方式完成各自在较小训练集上的串行SMO算法,最终由主控CPU收集和各受控CPU进行全局更新。 最后在MNIST和Adult两个标准数据集上我们给出了并行SMO算法对比实验和实验结果分析。实验结果表明,并行SMO算法具有较好的并行度,在MNIST数据集上,32处理器下可达到接近25的加速比,同时,并行SMO在加入缓存和收缩策略后也有较大幅度的提升加速比和运行效率,从而有效的提高了求解大规模SVM问题的速度。
其他文献
随着改革开放的深入进行,我国经济得到了前所未有的高速增长。经济总量的迅速提升,使电能消耗也逐年加大。自2003年以来,全国电力供需形势持续出现紧张局面。电能严重短缺的严峻
随着计算机和网络技术的飞速发展,电子政务已成为全球信息技术行业关注的热点。经过十多年的不懈努力,我国的电子政务已经迅速普及。然而,使用电子政务的部门和地区在感受网络带
学位
经过多年的信息化建设,各企事业单位已具备了较完善的OLTP系统,积累了海量的业务数据,但是他们分散、不共享,数据的完整性、一致性缺少很好的保证,且OLTP系统已远远满足不了企业应
学位
在互联网上实现大规模的流媒体数据直播服务,一直是普通网络用户和研究者追求的梦想。客户端/服务器架构需要很高的成本,且缺乏良好的可扩展性;作为最理想解决方案的IP组播因为
计算机视觉中的视频任务都有着很重要的实际应用,对视频数据建模和处理方法的研究是一个十分重要的方向。视频数据的复杂性,使得合理准确地建模视频数据成为非常困难的问题。传
云计算已经是下一代服务计算模式,并且全面进入实践和应用的阶段。由于硬件升级换代,在性能价格比、可扩展性和可用性方面,云计算资源虚拟化和异构集群系统显现出巨大优势,这使得
计算机游戏是计算机科学的一个重要组成部分。计算机游戏的研究领域包括游戏AI引擎、游戏视频引擎和游戏音频引擎等。在当前的计算机游戏研究中,开发人员把主要的精力集中在AI
随着信息技术和对地观测技术的不断发展,空间数据呈指数级爆炸性增长,地理信息服务日益成为人们日常生活的必须。空间数据管理是地理信息服务的核心,其性能的优劣直接影响地理信
在并行与分布式系统中,负载平衡是优化系统性能、增强其效率的重要环节。扩散和维交换方法已经成为两类重要的局部迭代负载平衡方法。自1989年由Cybenko和Boillat提出局部迭代