【摘 要】
:
近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点.早几年国内外研究者和业界比较关注的是在Hadoop平台上的并行化算法设计.然而, H
【机 构】
:
南京大学计算机软件新技术国家重点实验室 南京210046
论文部分内容阅读
近几年来,大数据机器学习和数据挖掘的并行化算法研究成为大数据领域一个较为重要的研究热点.早几年国内外研究者和业界比较关注的是在Hadoop平台上的并行化算法设计.然而, Hadoop MapReduce平台由于网络和磁盘读写开销大,难以高效地实现需要大量迭代计算的机器学习并行化算法.随着UC Berkeley AMPLab推出的新一代大数据平台Spark系统的出现和逐步发展成熟,近年来国内外开始关注在Spark平台上如何实现各种机器学习和数据挖掘并行化算法设计.为了方便一般应用领域的数据分析人员使用所熟悉的R语言在Spark平台上完成数据分析,Spark提供了一个称为SparkR的编程接口,使得一般应用领域的数据分析人员可以在R语言的环境里方便地使用Spark的并行化编程接口和强大计算能力.本文基于SparkR设计并实现了多种常用的并行化的机器学习分类算法,包括多项式贝叶斯分类算法,SVM算法和Logistic Regression算法.进一步地,对于SVM和Logistic Regression算法,本文在常规的并行化策略的基础之上为了进一步提升训练速度,设计采用了并行化局部优化的迭代计算模式.实验结果表明,本文所设计实现的基于SparkR的并行化分类算法与Hadoop MapReduce的方案相比,速度上提升了8倍左右.
其他文献
本文介绍“衰减”的基本概念,影响“衰减”测量的重要因素,“衰减”测量值与系统反射系数的关系,最后介绍了常用的克服失配与泄漏的方法。
This article introduces the basic
在推荐系统领域中,针对数据集稀疏性问题的研究大都建立在静态数据集的基础上,而实际工业应用中的数据集则往往是动态的并且具有以下两个明显的特征:1)User-Item矩阵维度逐渐
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行
本文从华人文化、艺术精神的实质来剖析在现代社会中的设计观,特别是传统文化思维向现代设计的转换,把传统文化中的精神理念应用到设计之中的详细阐述。本文提出了在设计中注
With the increasing demands of health care,the design of hospital buildings has become increasingly demanding and complicated.However,the traditional layout des
任颐(1840-1896年),字伯年,号小楼(一作晓楼),浙江绍兴市人,是海上画派的首领人物和杰出代表,与任熊、任薰、任预合称“海上四任”,又与蒲华、虚谷、吴昌硕合称“海上四大家
大数据集成是提供高质量数据进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间
由于受到新型冠状疫情的影响,各高校无法正常返校开展线下教学活动,为了积极响应党中央的号召“停课不停教,停课不停学”,工程结构抗震与防灾课程正式开启长江雨课堂线上直播
国务院总理温家宝6月1日主持召开国务院常务会议,决定启动城镇居民社会养老保险试点。会议决定,自2011年7月1日起,启动城镇居民社会养老保险试点工作,今年试点范围覆盖全国60
我对写实水墨人物画有两点看法,说出来与大家探讨交流,希望不犯什么忌讳。1、写实水墨人物画的历史满打满算只有几十年,技术成熟和创作高峰是在新中国成立以后,这一时期产生