基于CUDA平台的性能分析工具及优化技术研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:ecoffe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科技的进步与社会的需求推动了高性能计算技术的出现与发展,而在科学计算领域,随着问题规模与复杂度的不断增加,人们对大规模计算的要求也急剧增长。当前,一般通过提升集群模式下计算节点CPU性能或增加集群节点数量来提高程序的执行效率,这不仅耗费财力,而且在很多情况下,对于一个给定的并行程序,增加计算节点的数量并不能提高程序的执行效率。近年来,CPU的快速发展与NVIDIA公司推出的CUDA(Computer UnifiedDevice Architecture)技术,正推动着GPU在高性能计算领域中的应用。研究CUDA平台下程序性能分析工具及程序优化技术,对于充分利用GPU的计算优势,提高并行程序的执行效率具有重要意义。   CUDA平台下并行程序的开发与优化不同于CPU集群模式,这是由GPU与CPU集群的不同架构决定的。本文在分析了GPU硬件架构的特点和CUDA并行编程模型的基础上,并结合CPU集群环境下并行程序性能分析技术,设计并实现了适用于CUDA平台的性能分析工具。该工具主要通过在CUDA原程序中插入性能分析函数,动态地获取程序的执行时间信息及kernel函数的最优线程block值。另外,以稀疏矩阵向量乘算法为例,本文研究了CUDA平台下,非规则应用中数据划分策略以及CUDA程序中线程对GPU存储资源优化访存的方法。实验表明,与CPU程序相比,经过优化后的稀疏矩阵向量乘算法的加速比最高可达30.4;对于不同优化版本的kernel程序,当取最优线程block值时所获取的程序执行效率与程序平均执行效率相比,blockkernel能够获得大约32%的性能提升,warp kernel能够获得大约19%的性能提升,subsection kernel能够获得大约13%的性能提升。
其他文献
在网络安全领域,人们采取了多种技术保护系统免受攻击者的破坏。传统的方法包括防火墙和入侵检测,此外还有在入侵检测基础上发展出来的入侵容忍技术。尽管这些技术被广泛应用并
中医作为中国特色的传统医学具有重要的社会价值,但是由于缺乏对相关资源的有效管理,使得以往的专家经验并没有在中医项目上得到充分的发挥。为了解决专家与项目之间和专家与专
“软件人”构件化的研究与实现是863计划项目“基于“软件人”的分布式构件动态演化技术研究”和国家自然科学基金项目:基于“软件人”网构软件拟人智能动态演化方法与技术的
随着生活水平的提高和生产规模的扩大,对于远程监控系统的监控范围和监控方式的要求越来越高。传统的集中监控系统为了适应工业生产过程的实时监控和高环境适应性的要求,其监
学位
随着数据库技术的迅速发展,结构不同的数据库即异构数据库之间不能安全顺畅的共享和交换数据成为政府/大企业实现信息集成的瓶颈。而且,一些新的需求如:系统间的协同工作、对外
随着网络与计算机技术的不断进步,以计算机为媒介的通信(CMC)不仅改变了人们的日常生活,同时也为欺骗带来了新的场所和新的形式。从大量的电子数据中自动地检测和发现欺骗是
几千年来,我国中医学者通过实践积累了丰富的经验和大量的经典方剂。并产生了中医理论及施治的一系列原则。而对于中医医生个体而言,基本上是在中医理论指导下,靠长期经验,进行诊
如今软件规模和复杂度急剧增加,手工进行软件测试越来越不能满足需求。尤其是性能测试往往需要模拟大量用户的并发操作,更是难以通过手工测试的手段来实现。这促使人们开发测试
目前,Java卡在国内市场虽然所占的份额还很小,但是未来的趋势正朝着有利于Java卡的方向发展。而且国内一些具有前瞻性的卡商也开始着手进行Java卡的开发,在GP(Global Platform)
随着我国铁路事业的发展,对钢轨进行表面缺陷在线检测的问题日益突出。由于钢轨存在大量的表面附着物,无法基于钢轨图像的灰度值准确的对钢轨表面进行检测。基于结构光的机器视