基于异构平台的典型应用的并行优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:gzsee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
各种应用需求促使了大量的异构平台的涌现。典型的异构平台加速器包括数字信号处理器(DSP)、面向通用计算的图像处理器(GPU)、众核协处理器(MIC)以及硬件加速器(FPGA)等。
  针对异构平台的编程优化面临诸多挑战。由于各种异构平台体系结构的差异,所采用的编程方法以及并行优化方法都将不同。针对GPU这种含有大量并行计算单元并以SIMT方式执行的异构平台,编程实现中,需要特别注意避免条件分支语句的使用和优化。而对众核协处理器(MIC)这种异构平台,由于cache大小受限,因此在对应用实现中需要注意访存优化。异构平台中CPU和加速器间的协同和通信问题也是对异构平台性能发挥至关重要的因素。
  异构平台在科学计算和人工智能领域逐渐发挥越来越重要的作用。本课题分别从科学计算(心脏组织模拟)和人工智能领域(卷积神经网络)各选取一个典型应用在异构平台上进行映射。无论是心脏组织模拟应用还是卷积神经网络应用,对计算需求都非常大,其中包含的计算也有各自的特点,根据计算特点,本课题选取了两种典型的异构平台进行实现,一种是基于IntelXeonPhi加速器的异构平台,一种是基于NvidiaGPU的异构平台。主要涉及的研究内容包括以下几方面:
  1.心脏组织的3D模拟在大规模多核CPU系统上的映射。目前关于心脏模拟的研究都集中在2D规模,或者针对单个心脏细胞内的研究,本课题提出了一个精细的3D心脏组织模拟模型,这个模型能够模拟人类心脏组织细胞内的电活动和钙离子处理过程。本课题首先针对大规模集群的多核CPU系统进行并行优化。采用MPI并行编程方法将心脏组织划分成很多小网格并分配到每个计算节点中,在每个计算节点内部,面向多核CPU采用OpenMP并行编程技术将分配给每个计算节点的心脏组织细胞进行任务划分,最后单核CPU在对单个心脏细胞内的模拟中,采用SIMD技术进一步对细胞内的dyad单元实现并行计算。本课题采用多种并行技术高效地将心脏组织的3D模拟映射到了大规模多核CPU的集群系统中。
  2.心脏组织的3D模拟在天河2号超级计算系统上的映射。在大规模多核CPU系统上实现了心脏组织的3D模拟后,本课题将心脏组织的3D模拟扩展到天河2号超级计算系统上,天河2号系统中的每个计算节点是由多核CPU与3个IntelXeonPhi加速器构成的,在天河2号系统的异构节点间的任务划分方法与在大规模多核CPU系统上划分方法类似,都是采用MPI方法进行任务划分,但在天河节点内的任务划分,本课题根据天河节点内多核CPU与IntelXeonPhi在计算心脏细胞的实际性能进行任务划分,确保多核CPU与XeonPhi间的负载均衡,在XeonPhi加速器上的映射中,同样采用了OpenMP并行以及SIMD向量化技术。而对于CPU和XeonPhi间的协同,本课题采用的是COI/SCIF底层编程接口,在CPU端通过调用COI接口实现对XeonPhi的控制,而通过SCIF接口实现CPU与XeonPhi间的数据通信。
  3.3D卷积神经网络在异构GPU平台上的高性能实现。2D卷积神经网络已经在很多应用中取得了很好的效果,但3D卷积神经网络目前并没有应用的很广泛,主要受限于3D卷积神经网络计算量大的因素。因此本课题针对目前3D卷积网络中卷积计算量大的问题,推导出了一种能够有效降低计算量的3D卷积算法,即3DWinograd算法。该算法的原理是通过对卷积层的输入和卷积核进行变换,将变换后的结果进行矩阵乘运算,然后将运算结果再反变换回最后的结果,通过引入几个变换来减少矩阵乘的规模。本课题从理论上证明了该算法能有效降低浮点运算量,并在GPU异构平台上高效地并行实现,主要是通过CUDA编程将该算法中涉及的几个变换过程映射到GPU中,映射过程中采用了对齐访问和减少访存次数两种优化技术提高变换过程在GPU的性能,而对3DWinograd算法中的矩阵乘部分则通过调用目前比较成熟的cublas库实现,最后取得了比当前流行的深度学习库更好的性能。
  4.面向卷积神经网络前向过程的低延迟实现。低延迟在很多应用场景中作为卷积神经网络前向过程的一个重要指标,为了降低计算时间,本课题在多GPU设备上对卷积神经网络采用模型并行进行加速。模型并行中,每一层卷积层的计算都被分割到多个设备中执行,每个设备负责计算卷积层的部分输出结果,各个设备计算出的部分输出结果需要合并作为下一层的输入,因此,模型并行需要解决设备间的通信问题,本课题设计了一个高效的通信模式,一方面降低通信时间,另一方面尽量隐藏通信时间。
  综上所述,本课题选取的两个典型应用都为计算密集型的应用,适合在异构平台下进行加速,而本课题根据心脏组织模拟与卷积神经网络计算中各自不同的特点分别将它们映射到不同类型的异构平台中。在具体的映射过程中,提出了一些算法的改进并对各种并行技术进行了研究与实现。
其他文献
分类号:F592.99密级:公开学校代码:11065学号:2019029268专业硕士学位论文(统招非全日制)基于网络文本分析的青岛八大关景区旅游体验研究作?
学位
在高能脉冲TEA CO2激光系统中,光学薄膜的性能是限制激光功率提高和光束质量改善的关键技术问题。本文对高功率CO2激光谐振腔中用作反射镜的全反膜和用作窗口的减反膜、部分反射膜进行了膜系设计和镀制研究,并对高能激光薄膜损伤机理进行了研究。  本文从材料的热传导率、吸收以及热膨胀系数入手,选择合适的反射镜基底材料和窗口基底材料。采用Needle优化设计方法,考虑了高功率激光系统中光学薄膜内部电场强度
学位
第二课堂是我国教育体系针对大学生在校教育不可或缺的组成部分,也是学习风气建设的重要途径,对于学生来说发挥着独特的且不可替代的功能。桂林理工大学学生专业和来源存在多样性和差异化,因此学校的学风建设尤为重要。本文从实际出发,研究第二课堂成绩单制度下的高校学风建设,目的是为了打破传统教育单一化的形式,也为学生综合素质的全面发展提供了良好的平台,使第二课堂充分发挥其在高校学
该论文的研究主要包括以下几个方面:1研究了一种彩色图像中复杂背景下手势图像预处理方法.先获取背景图像,然后将采集的手势图像同背景图像进行差影法处理,然后进行彩色半阈值分割,再进行灰度阈值分割,最后进行平滑化处理.2提出了一种基于单目视觉的手势识别算法.通过用户初始化过程获取基本识别参数,结合视频跟踪的过程实时获取用户手势区域,在该区域内采用矩描绘子与多尺度模型相结合的方法进行特征提取,用矩描绘子提
学位
川办发[2021]5号各市(州)、县(市、区)人民政府,省政府有关部门、有关直属机构,有关单位:《四川省十大文化旅游品牌建设方案(2021—2025年)》已经省政府同意,现印发给你们,请结合实际认真组织实施。
本文以产业转移升级创新收益机理分析为切入点,基于能力结构与区域经济合作利益分配模型,对京津冀各城市产业协同创新收益分配态势进行测度,研究认为城市群各城市通过产业转移升级能够获取创新收益,各城市产业协同创新能力耦合度大小对创新收益分配有重要影响;京津冀城市群内各城市创新能力差异较大、创新能力耦合网络有一定优化空间,政府的产业转移升级政策对促进各城市创新收益分配趋向均衡
在数字通信中,电子侦察往往会通过对截获信号的盲解调来获取信息。盲解调作为非协作信号处理的一个关键技术,其方法涵盖参数估计方法、调制识别方法、符号同步与载波同步方法以及盲均衡方法。本文研究了MPSK、MAPSK信号的通用盲解调方法,在深入研究盲解调算法原理基础上,完成算法的性能仿真。全文的主要工作包括:首先,载波频率和符号速率在解调中是需要已知的,对于非协作侦察来说,
多传感器图像融合已经成为近年来图像工程的研究热点之一,在军事、医学影像、遥感图像和计算机视觉等领域得到了广泛应用。所谓的多传感器图像融合是指,采用一定融合规则,使不同传感器图像中的特有信息在融合图像中都有所反映,融合图像具有比单一传感器图像更丰富的信息量。本文主要是在小波变换基础上,对多传感器图像融合算法进行研究,主要工作如下:1. 阐述了多传感器图像融合的背景、层次结构和一般方法,对多分辨率金字
学位
传统鲁作家具是中国明式家具的一个重要分支,是带有明显山东地域文化特征的优秀民间艺术,它的发展离不开齐鲁文化的滋养,应时而生,载道于器。本文从齐鲁文化入手,创新性地阐述了齐鲁文化儒、雅、仁、礼、中、庸、天、道、和、谐等思想对传统鲁作家具的意境、功用、构型、材饰、设计等方面的影响。力图发掘鲁作家具的魅力,为当代鲁作家具的发展提供借鉴。
近期,笔者对纳入全国碳排放权交易市场的6家武汉电力企业开展调研。调研发现,碳配额抵质押贷款是盘活企业碳配额资产的重要方式,但提供金融服务时需注意多方面问题。同时,对金融机构支持碳市场建设提出政策建议。