CPU-GPU异构NUMA系统上共享内存式程序设计模型的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户：LEAMI

【摘要】

：

以GPU为代表的通用众核加速器是并行与高性能计算领域在最近十年内的重要发展趋势之一。由于采用不同的体系结构设计思路，GPU能够以高度并发的形式提供数十倍于通用CPU的计算

【作者】

：

张帅

【机构】

：

南开大学

【出处】

：

南开大学

【发表日期】

：

2015年期

【关键词】

：

CPU-GPU异构 NUMA系统共享内存式程序 CAGTP模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

以GPU为代表的通用众核加速器是并行与高性能计算领域在最近十年内的重要发展趋势之一。由于采用不同的体系结构设计思路，GPU能够以高度并发的形式提供数十倍于通用CPU的计算能力和内存带宽，因而在科学与工程计算等若干领域获得了广泛应用。然而，对于如何充分发挥CPU和GPU组成的异构系统所提供的高计算性能，目前研究成果相对较少，极少有工作从体系结构的角度探讨新的体系结构特性带来的潜力和可能性。早期GPU只能被用作独立于CPU的协处理器，GPU与CPU之间交互的开销较大，因而限制了其应用范围。新的GPU硬件所引入的新的体系结构特性使CPU-GPU系统变为具有可共享访问的页锁定内存区域的NUMA系统。这使得通过共享内存的方式实现高效CPU-GPU计算模式成为可能。　　本文在CPU-GPU异构NUMA系统的基础上提出了GPU计算的一个全新方向，即共享内存式GPU程序设计。通过参考CPU上的共享内存式程序设计，利用页锁定内存的共享特性设计并实现了能够支持CPU-GPU高效任务交互及并行的CAGTP（CPU Assisted GPU Thread Pool，CPU辅助的GPU线程池）模型。在实现CAGTP模型的过程中提出任务槽、计算线程块级任务调度、任务复用kernel等机制，使CAGTP模型上的任务交互开销远低于CKE或持久化kernel等现有的CPU-GPU任务交互技术。　　为支持所提出的CAGTP模型，本文设计了将已有的GPU代码转换为CAGTP任务式编程的代码转换方法，能够转换CUDA C层和PTX层的代码。为将PTX层代码转换为CUDA C层kernel，本文设计并实现了PTX2Kernel代码转换器，该技术尚未有同类的相关工作。　　为评价所提出的CAGTP模型，本文使用微基准测试方法学对CAGTP中运行时任务调度的若干环节进行了验证实验。这些微基准测试程序提供了一种衡量CAGTP模型工作机制各环节开销的量化手段，其结果对分析和优化CAGTP模型上的应用性能、改进CAGTP的设计具有重要价值。　　最后，将所提出的CAGTP模型应用于线性代数、机器学习等领域，实验结果说明CAGTP模型对于批量稠密矩阵乘、楚列斯基分解和混合类型任务等应用能够获得相对于CKE、持久化kernel等现有CPU-GPU任务交互技术明显的性能提升。　　CAGTP模型是共享内存式GPU程序设计的一个尝试，实验结果说明本文提出的共享内存式GPU程序设计是可行的。研究共享内存式GPU程序设计对于扩展以GPU为代表的众核通用加速器的应用范围、探索新型通用加速器体系结构的发展方向具有重要的理论价值和实践意义。

其他文献

基于量子广义粒子模型的信息自组织利用

目前网络信息利用模式有许多根本性缺陷，网络完全按照用户指定的信息类型和信息源地址，搜索和提供用户所需要的信息，网络中海量的、随机的、并发的、分布的利用信息的行为，被看作

学位

量子力学量子信息量子纠缠广义粒子模型GPM

军用自动报靶系统中图像识别技术的研究

图像处理技术是利用计算机来处理、分析和理解视觉信息的一项技术。随着计算机科学技术的巨大进步，图像处理技术研究和应用的领域正在迅速的延伸。一些具有高鲁棒性的图像处理

学位

图像识别自动报靶图像减影

基于状态验证覆盖的BAYES软件可靠性评估

软件可靠性是软件质量的重要因素，可靠性评估是对软件可靠性进行定量控制的必要手段。传统的可靠性评估方法都是基于系统运行期间的失效分析，对于武器型号软件，由于其使用试验耗

学位

武器系统软件可靠性评估Bayes模型系统信息交换字状态覆盖

二层隧道协议研究及L2TPv2网络服务器软件的测试

随着企业规模、范围、分支机构的不断扩展,企业内部及企业之间的信息量迅速增大,使得基于 Internet 的传统商务应用出现了诸多问题:网络的复杂性、管理的繁重性、信息的安全

学位

VPN二层隧道协议L2TPv2L2TPv3L2TP网络服务器软件测试

基于内容的中文音乐自动分类技术研究

多媒体技术及网络技术的飞速发展使得大量音乐数据可以在网上流通，多媒体数据库中的音频尤其是音乐数据呈爆炸式增长。然而，大规模音乐库的价值与用户能否有效地浏览音乐库的内

学位

中文音乐自动分类内容分类元数据音频特征提取神经网络高斯混合模型多媒体技术

基于J2EE的交通管理信息系统的设计与实现

本文给出了一个基于J2EE的管理信息系统的设计方案.我们首先从系统背景及开发技术选择谈起,介绍了软件体系结构的发展.在第三章详细说明了所选的J2EE模型的概念、体系结构和

学位

J2EE交通管理信息系统决策支持系统

基于SAML的口令单点登录身份验证

With the rapid development of technology in the world of the Internet today,most enterprises and large organizations have embarked to store and share their busi

学位

单点登录系统身份验证安全断言标记语言信息安全

证券行业的分析型CRM模型设计和实现

本文在深入分析我国证券行业应用特点和对CRM的实际需求的基础之上，对证券行业分析型CRM模型进行了研究、设计、和实现。论文的主要内容和成果如下：阐述了建设集中式分析型

学位

证券行业CRM模型软件开发

时空区域分解可扩展并行算法及其在污染溯源类反问题中的应用

近年来我国环境污染日益严重，有毒有害污染物的防治成为关系到国计民生的重要课题。在突发污染事件中，一个重要的应急措施是从污染现场采集的数据中迅速掌握污染源信息，隔离污染

学位

并行计算时空区域分解污染溯源环境污染

动态三维TSP的实时求解——以卫星地面通信链路设计为例

遗传算法(GA)是引入自然选择和进化机制发展起来的全局概率搜索算法。正像达尔文所说的：“自然界中能够生存下来的物种不是那些最聪明的，也不是那些最强壮的，而是那些最能适应环

学位

遗传算法动态旅行商问题基因库动态优化旅行商问题

CPU-GPU异构NUMA系统上共享内存式程序设计模型的研究

其他学术论文