【摘 要】
:
高性能计算(High performance computing,HPC)在航空航天、天体物理学、生物医学、气象、材料科学、核工程等科学研究和工程技术领域无一不发挥着重要作用。粒子输运模拟就是其中的一项重要应用。自上世纪三十年代中子被发现后,对于各类微观粒子的研究就一直持续不断。粒子运输理论已经被应用在天体物理、核物理、医学放射性治疗等重要领域。粒子输运方程(Boltzmann方程)是描述粒子传输
论文部分内容阅读
高性能计算(High performance computing,HPC)在航空航天、天体物理学、生物医学、气象、材料科学、核工程等科学研究和工程技术领域无一不发挥着重要作用。粒子输运模拟就是其中的一项重要应用。自上世纪三十年代中子被发现后,对于各类微观粒子的研究就一直持续不断。粒子运输理论已经被应用在天体物理、核物理、医学放射性治疗等重要领域。粒子输运方程(Boltzmann方程)是描述粒子传输过程的数学物理方程,其求解算法一直是研究的关键。随着科技的发展和实际应用问题的需要,对粒子输运模拟精度和实时性要求也越来越高。本文致力于利用天河2A高性能计算平台,优化粒子输运模拟应用的性能,提升高性能计算平台的效率和利用率,主要贡献如下:1、针对基于结构化网格求解三维粒子输运方程的数值计算方法特点,深入研究了现有的并行计算方法,提出并实现了基于Matrix-2000的三维结构化网格的大规模粒子输运异构并行算法。通过BCL和ACL接口完成CPU和Matrix-2000的数据传输,构建异构并行算法。在Matrix-2000端进行Open MP线程级并行优化,提升计算速度。线程级并行优化的内容包括计算迭代源,I-line网格柱计算和通量误差计算,在Matrix-2000超加速结点上取得了最大13.2倍的加速效果。在天河二号升级系统上完成百万核规模的扩展测试,并行效率较高,程序具有较好的可扩展性。2、在现有粒子输运蒙特卡罗模拟算法MCNP程序基础上,提出了一种面向CPU-MT2000异构系统的粒子输运异构协同算法;针对国产加速器Matrix-2000的架构和访存特点提出了适于程序并行的高效数据结构及基于粒子数与线程数的任务划分方法。同时,优化了原始的串行数据收集通信模式,提出新的二叉树通信模式,极大减少了通信时间,加速比可达17.7。通过优化通信模式,以及基于MPI-SCIF-Open MP编程框架,我们实现的基于CPU-MT2000异构协同计算的并行程序,可以弱扩展到45万核,相对5万核并行效率保持在22.54%。
其他文献
目前,无人机已经广泛应用于军事、商业和农业等多个领域,而相对于单个无人机,无人机集群具有效率高、容错性好等诸多优势,将是未来军事以及民用方面不可或缺的一部分。然而对于大规模无人机集群的控制问题,目前的控制模型都具有各自的不足,需要面向任务具体建模。此外,有效地评估无人机集群性能也很有意义,但无人机集群涉及多种复杂性科学,对其进行试验非常困难。本文针对自组织无人机集群建模及特性进行了以下探索。(1)
自动问答,旨在让机器通过检索、语义分析、自然语言理解等步骤,对自然语言问题进行自动作答。其中的开放域问答,所提问题多为通用问题,回答问题所需的资源不限定领域,更符合人们的问答习惯。近年来,随着神经机器阅读理解技术的发展,机器对自然语言理解方面的进步突飞猛进。由于机器阅读理解和开放域问答存在共通性,所以可以利用神经机器阅读理解的方法解决开放域问答问题,但是由于中文文本开放域问答任务自身特性,其中又存
本文以28nm体硅SRAM和28nm FDSOI SRAM为研究对象,以辐照实验、建模仿真、理论分析为研究方法,探讨了低能质子诱导的单粒子效应。文章主要内容及创新点如下:(1)介绍了课题背景及国内外相关技术研究现状。制造工艺的发展使以往可以忽略的问题变成亟待解决的挑战,必须对新涌现的问题开展机理研究。(2)研究了两款SRAM对低能质子的敏感性。开展了低能质子、高能质子辐照实验,结果显示FDSOI
基于CMOS工艺的超低功耗MTP存储器,作为小容量的嵌入式非易失性存储器,具有低成本、高可靠性和超低功耗的优势。随着物联网的兴起,超低功耗MTP存储器有着越来越广泛的应用。本课题的研究内容主要包括以下三个方面:(1)分析了典型的超低功耗MTP存储单元结构,在此基础上做了改进,提出了一种MTP存储单元结构,新的单元包含一个高压管。新的单元结构与典型的单元结构相比有以下优势:具有更小的单元面积,提高了
固态硬盘(SSD)以其高性能、高性价比,逐渐成为主流存储设备。但是,一些先天的特征仍然限制了它的广泛应用:(1)随着写及擦除次数的增加,极易磨损。因此,出于可靠性方面的考虑,SSD通常都装有专用的纠删码(EC)模块。但是,EC模块仅在纯粹的数据丢失情况下才被静态使用。换句话说,在数据完好无损的情况下(这种情况是SSD中的常态),EC模块不会被使用。(2)读、写、擦除这三个基本操作之间存在巨大的延迟
随着科技的发展进步,高性能计算早已经渗透到人类生活的各个领域,不仅包括互联网、大数据、云计算、人工智能等新兴领域,也涉及国防、天气预报、石油勘探等传统领域。高性能计算为计算机的底层计算提供持续的计算支撑。越来越多的领域使用的是基于协处理器系统的计算机,例如在HPC世界TOP500排名中就有很多基于协处理器系统的超算。在科研界,各大高校和研究机构普遍使用的也都是CPU和GPU协同工作的系统。特别是在
M-SOC是国产自主研发的高性能多核微处理器芯片,片上集成多个运算内核,具有很强的计算能力,传统DDR难以满足其高带宽的访存需求。高带宽存储器(High-Bandwidth Memory,HBM)作为一种新型存储解决方案能够提供更高的访存带宽,可有效缓解M-SOC所面临的“存储墙”问题。本文基于M-SOC对HBM的高带宽需求,设计并实现了其片上网络与HBM之间的数据转接桥(HBM Data Bri
使用诸如胖树、叶脊等拓扑的多根拓扑能够使网络鲁棒性得到显著增强,也给网络规模扩张提供了可能。但网络规模的扩大使得资源竞争的局部性冲突加剧,从而使拥塞控制变得越来越富有挑战。为了解决这一问题,基于信用预约的控制算法被提出,基于信用的拥塞控制算法在未发生拥塞前就确定各个节点能够占用的链路资源,以规划好的速率发送数据从而达到不引入排队延迟就能实现高利用率。但是实际部署基于信用预约的协议遇到了一些实际问题
在目前的100Gbps光纤骨干网中,DP-(D)QPSK调制格式因其频谱利用率高、色散容限高、抗非线性效应能力强等特性成为主流调制格式。相应地,传统的数字相干接收技术也已发展成熟。但是随着对智能光网络监测和网络安全需求的不断增加,超高速光信号智能接入已经成为了一个新的亟待解决的问题。在此应用背景下,传统数字相干接收技术暴露出了以下几大问题:1.数字相干接收机结构复杂、成本高昂;2.数字相干接收机一
量子霸权是量子计算发展中的里程碑,代表着量子计算装置的计算能力在某些特定问题上超越了最快的经典计算机,是量子计算研究领域的一个重要课题。玻色采样模型是实现量子霸权的有力候选实验,其对应的数学问题是一个经典计算机难以求解的采样问题,而其物理实现只需要全同光子、线性光学网络以及被动的探测,因此相对于通用量子计算机更容易实现。在玻色采样的相关研究中,玻色采样验证问题,是玻色采样的实现中的一个重要问题。然