基于Hadoop的大规模矩阵计算平台

来源 :北京大学 | 被引量 : 0次 | 上传用户:lovinglixia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
矩阵是一种非常重要的基本数据结构,它在电子商务、社会网络、信息检索等领域都有广泛的应用。如今这些领域处理的数据量越来越大,而过去对矩阵运算的研究多集中在单机算法,用户无法直接使用矩阵运算来编写分布式程序。虽然有一些并行的矩阵程序包,但它们的功能并不全面,而且容错性差。用户直接在Hadoop上编写矩阵程序又会有很多重复的开发,而且很难达到最优。  我们在Hadoop上搭建了一个针对大规模矩阵的计算平台Neo。Neo实现了矩阵的加减乘除等算术运算符、与或非逻辑运算符、大于等于小于等关系运算符、特征值分解奇异值分解等分析函数还有导入导出算子,总共28个矩阵最常用的算子,并提供简单易用的表达式编程接口,使得用户不仅可以直接使用算子实现大规模矩阵的并行计算,同时还可以方便快捷地在Neo上实现和测试新的矩阵算法。Neo还在逻辑级别、执行级别、平台级别都进行了优化,使得用户能最快的得到结果。  本文主要有以下几点贡献:1、提出了一种针对稀疏矩阵乘法的新算法,相比传统算法效率有很大提升;2、把Hadoop与R相结合起来计算大规模矩阵的特征值分解;3、提出了一些针对Hadoop上的矩阵运算的优化方式。
其他文献
软件测试作为保证软件质量的重要手段,一直是计算机工程领域科学界关注的一个重要问题,已经成为软件生命周期中的重要组成部分。其中测试用例的设计与生成是决定软件测试效果的
近年来,随着信息化建设的稳步推进,空间信息应用已逐步深入到人们的日常生产和生活当中,人们在受益于信息技术进步的同时,对空间信息服务提出了更高的要求,而传统的信息访问模式在
采用分布式计算框架及存储架构,云计算提供了一种高效的数据处理方式。云计算所具有的良好通用性、高可靠性和高可扩展性,吸引了众多研究人员及企业机构对云计算相关技术的关注
近年来随着各种重大Web安全事件的发生,对Web安全攻防技术的研究也越来越受到重视,被广泛研究的Web安全技术之一是Web渗透测试。Web渗透测试技术是从攻击者的角度考虑目标Web环
射频识别(RFID)技术作为一项无线自动识别技术在各种相关的行业中逐步被人们所认识和重视。但由于部分尚存的问题困难,致使超高频系统的应用还不是很广,针对存在的问题,需经系统
综合信息系统中分系统越来越多,而且日益复杂。各个分系统之间数据交互的要求也不断增加,同时各种历史数据爆炸性增加。实现综合信息系统中的数据实时、高效地分发,以及各个分系
篇章关系是文本中的组成部分彼此之间的语义关系,篇章语义关系分析是自然语言处理中的一个基本任务,很多其他任务都能从中受益。本文对篇章关系的关键技术进行了研究,对篇章关系
众包是互联网环境下一种新兴的分布式解决问题的生产方式。众包模式可帮助企业获得全球化的人力资源,显著降低开发成本,提高生产效率。采用众包模式开发软件是未来软件发展的一
随着人类对于软件的使用越来越广泛普遍,研究越来越深入,对其精确度的要求也越来越高。程序的语法错误可以在相应的平台上完成检测,但是并没有完成程序逻辑检测。针对软件逻辑错
信息技术的进步和计算机软硬件技术的快速发展推动了计算机系统的大量普及。启动速度是衡量计算机系统性能和用户体验的重要指标之一。提升计算机系统启动速度具有重要意义。