【摘 要】
:
Hadoop已成为研究大数据的事实标准。随着对大数据的深入研究,Hadoop的MR模型的不足也越发明显,Spark在迭代式计算方面后来居上,引发了研究人员的热切关注。Spark在数据挖掘
论文部分内容阅读
Hadoop已成为研究大数据的事实标准。随着对大数据的深入研究,Hadoop的MR模型的不足也越发明显,Spark在迭代式计算方面后来居上,引发了研究人员的热切关注。Spark在数据挖掘领域,在底层算法和模型方面一直走在了学术前沿,使得Spark在实际生产和实践中已经有了广泛的使用。本文在对Hadoop和Spark处理问题的原理分析基础上,为实验的验证搭建了 Spark集群和Hadoop集群环境,之后介绍了 Spark的四大模块,分析了 Spark机器学习算法库的诸多基础算法,总结了时间序列分析的相关知识,并在此基础上对多元时间序列在Spark平台上的模型和算法进行了重点研究。相似性度量是基础内容,也是重要的内容,我们在总结了时间序列相似性度量的基础上,针对多维时间序列的相似性进行重点分析,在多维DTW算法的基础上提出了归一化数据,排除数据量纲对数据产生影响,并基于Spark平台进行了实现。向量自回归模型(VAR)是研究多元时间序列中诸多变量之间相互关系的模型,也是对多元时间序列进行分析和预测最容易操作的模型之一。我们基于Spark框架设计并实现了 VAR和SVAR,为了验证程序性能,我们在R和Spark两个平台上试验了不同大小的数据集。试验结果表明,在数据量很大的时候,这个实现方案是有效的。最后总结全文,特别是对本文的不足进行了说明以及下一步研究工作加以展望。
其他文献
目的探讨健康青年男女T环的形态、特点,分析性别对心室复极的影响。方法选择心电图正常的健康青年男女各30例,行心电向量检查,并对心电向量T环特点、形态进行比较。结果正常
现在随着科学技术的不断发展,隧道技术发展到了一定的高度,许多城市以开始了城市的地铁建设。本文采用数值分析的方法,着重对圆形隧道在一定的外界条件下,所产生的应力分布,位移变
本文对色彩管理系统进行概述,并介绍了InDesignCS3色彩管理功能,探讨利用InDesignCS3进行印前设计的颜色设置、指定配置文件和转换配置文件的方法。
目的探讨丙戊酸钠治疗脑卒中后癫痫的临床效果。方法选取2011年6月~2013年6月本院收治的50例脑卒中后癫痫患者,按照随机数字表法分为对照组和实验组各25例,对照组给予抗凝、
本文主要介绍了轻型胶版纸(蒙肯纸)生产过程中遇到的问题及解决方案,产品档次提升的设备改造方向,重点阐述了软辊压光机对提高成纸整饰水平的作用机理,同时指出了轻型胶版纸
许多移动新闻客户端就目前的发展状况而言,从其定位和作用看,基本是传统媒体和PC时代门户网站在移动互联网时代的延伸和迁移,满足的是用户对最基本信息和资讯的获取。本文从
装饰壁画作为一种物质形态与意识形态的综合体而存在,它依附于特定的建筑或空间环境,与环境形成有机的结合,成为相互作用的整体。装饰壁画在设计过程中必须考虑到地域环境、
体育锻炼对于促进人的心理健康具有积极的影响,据有关调查,有15%左右的大学生患有不同程度的心理障碍和心理疾病,本文针对大学生产生心理障碍的原因,通过分析体育锻炼对心理健康
随着汽车大众消费时代的到来,能源已出现短缺或长期供应不足,车用能源多元化和技术路径多样化的发展道路已被世界各国认可。本文通过研究目前国内外车用能源的发展状况,结合几种
随着市场经济的不断发展和计算机、互联网技术的广泛应用,越来越多的企业运用会计电算化提高会计核算准确性、及时性,但在实际运用过程中,存在着重视不足、专业人才匮乏等问