面向国产异构众核处理器的Stencil计算性能优化技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:acdef2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Stencil是一类在科学计算和工程应用中常见的计算模式,其计算和访存开销随规模增大呈线性增长,适合在高性能计算机上并行执行。我国自主研发设计的“神威·太湖之光”由国产SW26010众核处理器搭载而成,是世界上首台性能超过100 Pflop/s的超级计算机。为充分发挥国产超级计算机在科学应用性能加速中的作用,针对Stencil计算的性能优化研究十分重要。然而,Stencil计算在国产异构众核处理器上面临着访存带宽受限的挑战,并且在优化过程中需要大量的手工调优工作。为了实现Stencil计算及其应用在国产异构众核处理器上的深度优化和高效部署,本文对Stencil计算在国产异构众核处理器上的性能优化技术展开研究,主要工作和研究成果包括:1、设计并实现了Stencil计算在国产异构众核处理器上的并行优化方案。针对国产异构众核处理器的体系架构和存储特点,分析Stencil计算在并行优化过程中的主要性能瓶颈。设计了适应局存的数据划分、交叉分块、双缓冲优化和时间分块等结合的并行优化方案,有效解决了从核存储空间过小、访存带宽不足、数据重用低效等问题。选取2D-5P、2D-9P、3D-7P、3D-27P Stencil算例在SW26010处理器单核组上进行了优化实验,最高加速比可达132.05。2、提出并建立了面向国产异构众核处理器的Stencil计算性能模型。结合上述并行优化方案,分析Stencil计算并行程序的算法特征和访存模式,量化关键性能参数和程序运行时间之间的关系,进一步分析采用双缓冲时DMA传输时间和计算时间重叠的特征,得到全局性能模型。以SW26010处理器为实验平台,建立了相应的性能模型,并使用常见3D-7P、3D-27P Stencil算例进行了实验验证,得到性能模型平均误差约为10.97%,准确性较高。3、提出了面向国产异构众核处理器的Stencil计算自适应分块参数选择算法。基于性能模型对性能瓶颈的分析,进一步调整空间分块参数和时间分块参数,衡量冗余数据传输和冗余计算的开销,得到理论最优分块参数。通过将性能模型和分块参数调整方法结合,提出了面向国产异构众核处理器的自适应分块参数选择算法,并通过3D-7P、3D-27P Stencil算例验证了算法的有效性。
其他文献
学位
毫米波功率模块(Millimeter Wave Power Module,MMPM)是一种新型的工作在毫米波波段的微波功率放大器件,主要由毫米波小型化行波管、固态放大器及集成电源三大部分组成,具有体积小、重量轻、效率高、频率高、频带宽等优点。随着MMPM小型化水平的提高,温度过高和热量分布不均匀成为了制约其可靠性的关键因素。基于此开展MMPM的热设计研究工作,对于提高MMPM的可靠性具有重要的意义
短波通信是一种有效的无中继长距离传输无线通信手段,因其抗毁、抗干扰能力强、配置灵活、成本较低等优点,广泛应用于军事通信。随着近几十年产生了许多短波自适应通信链路标准,短波通信的稳定性和有效性显著提高。其中,美国国防部提出了MIL-STD-188-110C(以下简称110C协议)短波标准规范,信号最大带宽为24k Hz。结合当前IC技术,本文以Xilinx XCZU9EG So C芯片为平台,针对传
与GNSS卫星相比,低轨卫星对地运动速度更快,可提供更强的落地信号,若将其用于导航,可以有效提升中高轨导航星座的性能,已成为下一代导航星座的发展方向。但是,现有的全球导航星座和低轨星座大多为单一构型,存在导航性能全球分布不均匀的固有问题。为此,已有学者提出混合构型星座的解决思路,但相关设计方法尚不成熟,分析与优化的效率也有待提高。本文针对区域/全球导航服务的LEO混合构型星座,开展星座设计与优化方
当前,工业物联网伴随着全球新一轮科技革命和产业变革应运而生,涉及工业与互联网等信息通信技术的各个环节和主体。为了满足工业物联网对高速率、高密度、低延时通信的需求,可见光通信提供了一种新型的解决方案。然而,工业物联网场景中设备的移动以及高密度小区产生的小区间干扰,对可见光通信的高速鲁棒传输提出巨大挑战。为此,本文面向可见光移动通信对鲁棒接收的需求,研究阵列可见光通信移动接收的几个关键技术,主要的研究
近年来,随着互联网、物联网和智能移动终端技术的飞速发展,泛在网络的广度与深度也随之增加,与之而来的就是泛在信息的爆发式增长。作为泛在信息的一种重要表现形式,泛在统计图表能将繁冗的统计数据以直观形象的形式展现出来,在地理信息表达和传输等领域应用广泛,其中包含了大量具有重要价值的信息,实现泛在统计图表中信息的智能解译可以为各种地图产品的具体应用提供数据支撑。泛在统计图表的数据格式为栅格型图像,因此可以
随着互联网和智能设备时代的到来,现有的频谱资源日益紧张,严重限制着终端用户的数字化体验,人们对高密度与高速率通信系统的需求日益强烈。通信频谱向更高频段延伸已然成为移动通信发展的必然趋势。众所周知,毫米波频段具有相当可观的频谱资源,能够很好的摆脱当前通信系统所面临的困境。然而毫米波通信同样存在诸多问题,如传输损耗高、绕射和衍射能力弱等,严重影响通信质量及信号覆盖范围。采用波束赋形技术的多波束天线系统
辐射源个体识别技术(Specific Emitter Identification,SEI)通过提取信号中蕴含的可以表现辐射源硬件特性的细微畸变来实现对某一特定发射设备的识别。其识别过程不需要对内涵信息进行解译和理解,在无线安全、自组织网、军事目标识别等领域得到了应用。在实际应用中,存在进行跨接收机SEI的需求,即利用多个接收机的接收数据实现对发射设备的识别,例如对广域运动辐射源的识别和多平台协同
波达方向(Direction-of-Arrial,DOA)估计技术是5G与物联网相融合的关键技术之一,超分辨子空间类DOA估计算法实现了较优估计性能,但由于均匀阵列存在孔径较小、阵元间互耦误差较大、阵列分辨力较低等不足,其性能仍有待提高。互质阵列作为一种新型的稀疏阵列,具有等阵元数时阵列孔径大、等孔径时阵元开销数少、阵元互耦误差小、高分辨力等优势,能够获得更优异的阵列信号处理增益,因此结合互质阵列
近些年,语音识别技术随着深度学习的发展再度兴起并进入新的发展阶段。在近场声学环境下,自动语音识别取得了超人的识别准确率。然而,在实际应用中,拾取语音通常包含噪声、混响、回声、人声等干扰因素,使得识别性能严重下降。与近场声学环境相对应,远场声学环境是指声源与接收器之间距离为1m到10m的声学环境,囊括了智能音响、可穿戴设备和助听器等大部分语音识别系统的实际应用场景。远场语音识别技术可以提升在复杂声学