计算流体问题GPU加速研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:Aslaen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着显卡硬件技术的不断革新,GPU这种新的编程技术为高性能计算提供了一种全新的可能性。尤其是在科学计算领域,其强大的计算能力已经使部分计算任务获得几十甚至几百倍的加速比。在回顾现有GPU技术发展的基础上,本文着重研究GPU技术在计算流体力学中的并行加速方案及实现技巧。具体的,本文通过两个经典案例,方腔流和机翼翼型来阐述如何通过GPU来实现计算流体中的有限差分数值算法。总体上,本文可以分为以下几个部分:   文章初始部分详细介绍了通过有限差分方法求解NS方程的步骤,和以OpenCL和CUDA为代表的GPU编程框架模型。前一部分是对计算模型的描述。而GPU编程模型部分涉及GPU内存布局、执行模型、线程模型以及GPU线程的层次模型。之所以对这些内容进行详细描述是因为硬件知识对程序加速相当重要。为使程序获得最优的加速比,编程人员必须充分理解GPU的相关硬件结构。   本文的重点放在了通过有限差分和GPU硬件加速方腔流和机翼翼型求解的工作上。对于方腔流,本文使用了OpenCL和CUDA这两种最主流的GPU加速技术进行编程实践,在基于共享内存的GPU并行架构上通过区域分解技术将待差分点映射到GPU索引空间从而实现并行计算。对于机翼翼型,本文扩展了已有研究成果,通过多节点GPU的MPI+CUDA模式来实现CPU与GPU的同时并行化以提高程序的运行速度。同时文章还描述了数据传递和计算时会碰到的问题,并给出了GPU优化策略。为了使计算更具有普适型,本文最终基于现有算例构建了基于GPU的流体计算通用NS求解器。本文实验使用OpenCL和CUDA并行集群。对于方腔流加速研究,从实验结果可以看出,无论OpenCL或是CUDA,GPU加速都可以获得30-60倍的加速比,而不同平台的性能对比也为后续平台选择的工作积累了经验。对于机翼翼型问题,程序使用telsaC1060集群在基于消息传递的MPI接口上完成GPU之间的数据传递。实验结果发现随着问题规模的扩大,程序在多节点GPU上可实现5-29倍的加速比。
其他文献
化工生产中产生大量的过程数据,这些数据蕴含着生产优化、质量管理、过程控制的相关信息。已有的关联规则挖掘应用领域涉及到商业、金融、电信、零售等行业,这些行业的过程以
随着无线技术的发展和硬件成本降低,基于移动无线网络的视频应用得到越来越多的普及。传统面向数据传输的网络协议已经不能满足视频传输需要。一方面,视频数据具有特殊的编码结
XML文档作为一种半结构化数据格式,在数字化信息时代扮演了重要的角色。XML文档天然的支持自定义结构化的信息表达,已经在金融、生物医学等领域被广泛的应用。如何对XML进行
随着集成电路工艺进入深亚微米,芯片频率不断提升,中央处理器(CPU)对数据的访存成为性能瓶颈。通过采用DDR(Double Data,Rate)内存技术可以大幅提高数据访存速率和带宽,但是D
目前,异构体系结构是构建大规模并行计算系统的重要手段。使用GPU加速卡来构建异构系统成为一种主流的方式。而不论从应用的角度,还是从体系结构的角度看,如何充分有效的利用异
近年来,国际国内各种社会组织的数量及活跃度快速增长,对各国的政治、经济等领域的影响日益加深。因此,迫切需要研究各种社会组织的行为规律,为政府等利益主体的科学决策提供
由于海量医学信息的快速增长以及信息来源的多样性、组织的无序性等原因,传统的医学信息的组织方式很难满足人们对于信息服务的需求。医学知识库对医学领域的各种知识进行分
与传统的资源管理方式相比,虚拟化技术给系统资源的管理带来了很大的优势。通过虚拟机的服务和资源封装作用,一方面可以快速有效的整合服务和部署应用,提高资源管理的自动化程度
本文主要是分析在历史网页搜索中若干导致用户不满意检索结果的原因,并提出解决方案。在历史网页搜索中一个重要的特点:检索结果按照时间排序。当检索结果按时间排序时,可能
当前在化合物鉴定的研究中,随着质谱技术的迅猛发展,通过色谱质谱(LC-MS)联用技术鉴定样品的质谱数据从而鉴定化合物是最广泛使用的技术。实验中,从色谱中分离出来的化合物样品