GPU加速MapReduce集群的设计与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:ivwyniqtd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
更快速的处理海量数据,是数据中心计算领域永恒的追求。随着数据量的爆炸式的增长,以及应用领域对于数据处理时效性的要求越来越高,数据处理的压力越来越大。人们不得不着手对现有的大规模数据处理的软硬件架构进行改进。MapReduce作为一种分布式并行计算模型,在企业大数据计算领域得到了广泛的应用。近年来,研究人员着手从各种角度挖掘MapReduce模型的性能潜力,其中,硬件加速的MapReduce是一种新颖的思路。在本文中,我们将介绍一种基于图形处理器(GPU)加速的MapReduce实现平台。GPU是一种高度并行的众核(many-core)处理器,它可以同时发射上千线程,显著提高计算速度。目前在高性能计算等领域,以GPU为代表的异构协处理器已经得到了广泛认可。以此为基础,我们尝试将GPU的强大计算能力与MapReduce模型在数据密集型应用方面的优势相结合,以实现一种基于GPU加速的高性能MapReduce集群。以此为中心,本文所属的课题展开了相应的研究,具体的工作和成果如下:1.设计并实现了一种基于GPU加速的MapReduce实现框架一—GAMR集群系统;2.提出了一种基于GPU的并行排序算法,并应用于GAMR集群系统中,从而将作业运行阶段的排序速度提高了3到8倍;3.详细分析了MapReduce作业的数据流,得到了一种形式化的MapReduce性能量化模型,从而使MapReduce作业的性能评估可以通过公式计算得出;4.提出了一种基于共轭梯度优化算法的自动化MapReduce集群性能优化方法,减少了集群运维人员的工作量;我们工作的核心思想是,将MapReduce模型的并行性从节点间粗粒度的多机(Multi-computer)并行,进一步延伸到节点内细粒度的众核(Many-core)并行,通过异构协处理器来提高MapReudce运行环境的性能。实验测试表明,与其他MapReduce实现环境相比,运行在GAMR集群上的MapReduce作业获得了5倍左右的加速。
其他文献
视频监控系统是视频技术与网络技术高速发展汇聚而成的具有变革性的信息系统。存储和数字采集技术的发展为视频监控系统的快速发展奠定了坚实的基础。视频监控系统在城市管理
随着计算机和互联网技术的迅速普及应用,绝大多数的学术论文以电子文档的形式进行使用和传播。用户对学术论文的检索和获取也越来越多地依赖于网络上的学术搜索引擎、全文数据
近年来,随着扫描重建和建模技术的发展,三维模型的复杂度迅速提升,在表示物体上具备越来越多的细节。人们需要高效的压缩算法来处理这些高精度的三维模型,以满足图形应用程序紧凑
云计算是一种通过网络以便利的、按需付费的方式获取计算资源的范型,这些资源来自一个共享的、可配置的资源池,并能够以最省力的、无人干预的方式获取和释放;它们通常是基于虚
社会网络可视化技术属于信息可视化技术中复杂网络可视化的范畴,社会网络的结构非常复杂,如果只用数据表格或文字的形式来表示网络,不但难以理解,而且网络所包含的信息难以体现。
2005年IETF(Internet Engineering Task Force,因特网工程任务组)提出的NBS(NetworkMobility Basic Support,网络移动性基本支持)协议扩展了MIPv6(Mobile IPv6,移动IPv6),提供一种当
随着机动车使用数量的日益增多,公安部门从监控图像查找犯罪车辆的难度也日益增加,如何快速、实时地从海量视频数据查找犯罪车辆问题成为摆在公安部门面前的核心问题。基于多核
云计算是一种将大规模的IT资源通过互联网按需快速地交付给用户的服务模式。通常基础设施(IaaS)云服务将云计算中心的物理资源转化为由虚拟机组成的资源池,实施资源池化管理。
随着时间的推移,客观物质在不断变化,不断有信息数据发生变化并有新的信息数据产生,如何有效处理这些历史数据,当前数据,和未来数据,这使得时态数据库应运而生。由于时态数据需要海
当前网络安全问题已经从传统的互联网范围延伸到了工业控制领域。随着工业4.0进程的不断推进,工业控制网络这种最初被设计成相对封闭环境的网络结构与互联网的连接愈加紧密。