MIC众核架构通信密集型函数的算法设计与性能优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:cookid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了进一步提升超级计算机的计算能力,使用众核加速部件作为协处理器的混合异构方式逐渐成为新一代超级计算机体系结构的首选设计方案之一。IntelMIC架构是一种基于x86的高性能众核体系结构,配备了512位宽的向量化指令集和大量的计算核心,能提供高效的浮点计算能力和访存带宽。然而众多的并行线程和相对较少的片上cache资源,对应用程序的并行度和访存局部性提出了很高的要求。高性能计算领域的“七个小矮人”中的三种算法模型,快速傅里叶变换(FFT)、稀疏线性代数和结构化网格计算都是典型的通信密集型问题,它们在信号处理和求解偏微分方程等领域都有着广泛的应用。在众核以及异构的环境下对这些基本算法模型进行并行算法的重新设计和性能优化,不仅能检验硬件平台有效性,对科学和工程领域也具有重要的意义。  本文以优化3D FFT、HPCG和HPGMG为驱动,研究快速傅里叶变换、稀疏线性代数和基于结构化网格的stencil计算这三类问题在Intel MIC众核平台上进行并行算法设计和性能优化的方法,并探索在异构众核平台上并行算法设计的方法、经验和性能优化的关键技术。  基于Intel MIC众核平台的3D FFT并行算法设计和优化。论文中从算法级、线程级和代码级三个层次对3D FFT进行了优化。首先,针对Intel MIC存储子系统特征,提出了基于维度分解和组合的两阶段3D FFT算法,利用cache分块技术,将算法中所需的内存访问次数限制在4N(Ⅳ为数据规模)。其次,使用两层并行模型,对OpenMP线程进行分组,在线程组间进行任务划分,由线程组协作以共同完成一个子任务的计算,增强L2 cache中数据局部性的同时,保证了算法的并行度并且能够充分地利用众多的计算资源并高效地扩展。最终,基于该算法实现的3DFFT在Intel Xeon Phi7110P平台上,获得了最高136 Gflop/s的性能,达到了该平台上Intel MKL商用数学库中FFT性能的2.22倍。  天河2号上CPU-MIC混合HPCG并行算法设计和优化。论文工作基于MPI+OpenMP+offload混合异构的编程方式,提出了异构节点内子任务划分、设备间负载均衡、异步计算和数据传输的设计和优化方案。在Intel MIC众核加速器上,对性能关键函数对称Gauss-Seidel(SymGS)使用不同的红黑排序和并行策略,并从工作集大小、所获得的并行度以及迭代收敛速度三个角度进行对比和分析,并选择性能最优的实现组合。优化的HPCG成功扩展到天河2号整机16,000个异构计算节点上,获得了623 Tflop/s的性能和81.2%的并行效率,帮助天河2号取得HPCG排行榜第一。  Intel MIC众核平台上HPGMG性能优化关键技术研究。首先评估了编译器自动向量化、内存对界和分块参数对性能的影响。其次通过分析F-cycle和V-cycle的数据流,挖掘各数值核心之间融合的机会,如残差计算和限制算子、粗网格磨光操作和插值算子之间,并且将边界条件的应用融合到各数值核心中,以加强cache数据的重用。在并行化方面,主要通过混合使用两层并行模型对各MIC核心之间的负载均衡进行了优化。在Intel Xeon Phi7110P平台上,优化后的HPGMG-FV性能最大达到了参考实现的1.61倍。
其他文献
无线传感器网络(Wireless Sensor Networks, WSNs)通常靠能量有限的电池供电,因而延长WSNs的生命周期成为研究的重点。同时为了提高WSNs的服务质量,本文研究了路由鲁棒性策略
Rapid development of computer technology has brought a great change in our lives.According to spread of smart devices, a new input device has been required.The
远程教育作为我国高等教育的一种形式,有效地牵引着教育资源的优化,给教育思想与技术带来了革命性的变革,已经成为现代教育的必然要求。远程教育要得以顺利、高效的实施,必然离不
在信息化席卷全球的今天,我国的国土资源管理信息化在国家土地二次更新调查的带动下稳步推进。国土空间数据的采集编辑是实施国土资源管理信息化的重要环节。结合国土空间数据
在搜索引擎领域中,汉语分词的重要性愈显突出。与西文不同,汉语书写时是按照句子连写,词与词之间无间隙,容易让人在句子的理解上产生偏差,这就给查询信息、机器翻译等工作造成了很
本课题来自国家科技部2006年国家科技基础条件平台建设项目“网络协同研究与工作环境建设”。整个网络协同研究公共服务平台系统支持同步和异步两种协同方式,支持人机、人际协
智能交通系统已经成为电子信息技术在交通运输领域的热点研究课题。而图像处理和模式识别技术在智能交通系统的应用研究,是智能交通系统重要的前沿研究领域,具有极其重要的理论
网格变形技术是数字几何处理研究的核心技术之一,其应用方面主要包括三维数字媒体、影视娱乐、文化教育、网络休闲等。网格变形主要是研究三维虚拟物体的表面编辑、姿态变化、
随着计算机的广泛应用,现在的社会正朝着信息化的方向飞速发展。报表是一种包含大量相关信息的集合的表现形式,在社会各领域中使用广泛。其中,在企业的信息管理中不可避免地要编
虚拟现实是一门横跨多学科的综合技术,它是在计算机图形学、人机交互、建模仿真、计算机系统与通信等多种技术基础上发展起来的。虚拟现实技术作为一种新型的人机接口技术,不仅