基于Spark的并行SVM算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:guigui1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断增加,支持向量机(SVM)的并行化设计成为数据挖掘领域的一个研究热点。针对SVM算法训练大规模数据时存在寻优速度慢、内存占用大等问题,提出了一种基于Spark平台的并行支持向量机算法(SP-SVM)。该方法通过调整层叠支持向量机(Cascade SVM)的合并策略和训练结构,并利用Spark分布式计算框架实现;其次,进一步分析并行操作算子的性能,优化算法并行化实现方案,有效克服了层叠模型训练效率低的缺点。实验结果表明,新的并行训练方法在损失较小精度的前提下,在一定程度上减少了训练时间,能够很好地提高模型的学习效率。
其他文献
通过使用2018年CFPS数据,通过构建Probit模型进行实证研究,对全国及各区域之间的不同情况进行比较,剖析家庭贫困因素在我国各区域间的不同。研究得出:劳动力的地域性流动会降
连接操作是关系数据库系统中最基本、最昂贵的操作,对数据库性能有巨大的影响。由于连接表存放在文件系统中,因此文件系统的性能对连接操作的性能有决定性的影响。不同文件系
已有的粗糙描述逻辑(RDLs)都是基于经典的粗糙集理论,也就是在讨论可以处理不确定信息的粗糙描述逻辑前首先要定义出论域中元素间的某种等价关系。事实上,人们经常会遇到用形式概念表示的对象域,这种情况下一个自然的问题就是:如何处理可能出现的不确定性概念?把形式概念分析与粗糙集理论联系起来作为基础,建立了两种新的粗糙描述逻辑。把文献[14]中Y.Y.Yao等提出的方法应用于新的RDLs,其中的上(下)近
"双创"战略是中央政府做出的重大决策部署,是新时代促进高质量发展的重要抓手之一。基于此背景,区别于以往地方政府推进"双创"战略的政策模式,下一步地方政府推进"双创"战略
针对在物联网应用中,现有的RFID安全认证协议存在安全缺陷和认证效率低等问题,提出了一种满足后向隐私的RFID双向认证协议,它通过Rabin加密算法的运算单向性来解决同步以及后