Silicon-Crystal应用在SW26010处理器上的移植与优化

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:xb_wonder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Silicon-Crystal应用运用分子动力学方法对晶体热传导性进行模拟,采用Tersoff势模拟硅晶体的运动轨迹.本文利用神威Athread在神威太湖之光上成功移植了Silicon-Crystal应用,针对SW26010异构众核处理器带来的内存受限问题,提出5种主要优化方式:1)将计算所需参数预取到LDM(Local Data Memory);2)通过DMA(Direct Memory Access)方式对中心原子数据进行传输;3)合理设计软件cache,利用软件cache实现邻居原子数据的读取;4)在从核定制超越函数,避免从核访问超越函数时的离散访存;5)利用寄存器通信实现从核间任务分步流水优化.经过优化,单核组较主核串行取得了12.89倍的加速,较Intel Xeon E5-2620 v4处理器取得了8.7倍的加速.本文还对Silicon-Crystal应用进行了可扩展性测试及分析,实验结果证明Silicon-Crystal应用在神威太湖之光平台上具有良好的可扩展性.
其他文献
随着直播频道的不断增加,观众不得不花费额外的时间和精力来选择适合的节目.通常,推荐系统可有效缓解上述问题,然而直播电视所具有的实时性、多用户、隐性反馈、冷启动等特点给推荐系统的研究带来挑战.针对这些特点,现有的方法大多利用时段划分的方式将用户对节目的偏好转换为对频道的偏好,通过推荐频道来完成节目的推荐.然而,这些方法的时段划分规则依赖经验,不具通用性,可解释性差,并且未考虑用户偏好会随时间的推移而变化的情况,同时,推荐频道的模型往往忽视了对正在播出的节目的关注.为此,本文提出了时间相关的直播电视推荐算法T
深度卷积网络由于强大的特征学习及表征能力在图像超分辨率领域取得了广泛的应用,伴随图像超分辨率模型的不断发展,复杂的模型带来了庞大的参数量以及越来越高的计算需求.为了提升参数的复用并抑制特征冗余信息在迭代反馈中的传播,本文引入了反馈机制,并提出了一种新的基于深度反馈注意力的超分辨率网络模型(Deep Feedback Attention Network,DFAN).本文提出的模型在每一轮训练中,以迭
器官或肿瘤的精确分割对于医生诊断和预测疾病至关重要.与传统的特征工程相比,经典的U-Net模型在生物医学图像分割中具有较好的性能.但在U-Net模型中,池化操作和卷积操作会使得一些特征空间信息丢失,导致图像分割精度降低.为此本文采用MultiResR2block模块代替U-Net模型中的两个3×3卷积模块用于提取特征,采用Path Net模块连接MultiResR2UNet模型中的编码网络和解码网
文中探讨了多输入多输出-非正交多址接入(Multiple-Input Multiple-Output Non-orthogonal Multiple Access,MIMO-NO-MA)系统的用户分簇问题.针对现有用户分簇算法需要指定簇
工件表面缺陷检测是保障工件质量的重要环节,在有足够标签的情况下,有监督学习可以很好地对其缺陷进行分类,但当有新的工件需要检测时,又要标注新的数据集.为了解决该问题,本文利用不同工件之间缺陷种类的相似性,并基于迁移学习的思想,提出了一种全局特征和局部特征共同适应的无监督域适应方法(GLDA).该方法首先利用生成对抗网络对齐全局特征,然后最小化生成域数据与目标域数据的协方差矩阵的差从而对齐局部特征,并
无人机实时图像应用(Realtime Image Applications based on Unmanned aerial vehicle,RIAU)在民事和军事领域具有广泛的应用前景,研发这种系统面临着许多挑战.本文提出了"人在环路上"RIAU系统的概念,采用人工智能技术来提升RIAU系统的能力;研究了人在环路上RIAU的典型计算模式,分析了地面计算和机载计算两种模式系统的特点;研究了RIAU
随着边缘AI的兴起,边缘GPU集群被广泛用于大量并发AI数据流的实时处理.AI数据流不仅需要在集群内传输,还需要在计算节点上排队和计算.为了减少响应时间,研究者们旨在通过优秀的调度算法减少任务的排队等待时间,而忽略了调度命令的传输耗时.在传统的单平面框架下,由于调度命令与数据在同一个物理线路上传输,在集群内传输数据量很高时,容易因调度命令的传输延迟和丢弃而调度失败,甚至造成集群性能下降或者故障.本文提出一种边缘集群内AI数据流的双平面调度模型.首先,提出一种双平面的框架,将调度命令和数据传输从物理上分离,
近年来区块链技术受到广泛关注,区块链的应用已经不止局限于加密数字货币,还在溯源、金融、物联网等领域有了初步的应用.传统结构的区块链由于受到共识算法的限制,大量的密码学计算导致网络的事务吞吐量无法得到有效的提升.本文提出一种面向区块链的链下数据库的可验证查询模式,全部的数据按批次存储在链下数据库,区块链中只存储批次数据的消息摘要值,通过这种方式将区块链不可篡改的特性与链下数据库强大的增、删、改、查的能力结合,同时保证了该模式的效率和安全.基于这种模式,本文提出了一种多模式可验证查询方法,根据节点之间信任程度
基于气象数据直接体绘制的方法对三维云进行可视化时,如果使用低精度、少层级的网格数据就会造成模拟数据在垂直方向上相对稀少,从而导致云面会十分粗糙、渲染效果缺乏真实性.为了解决这个问题,本文提出一种利用纹理噪声引入随机抖动从而使云面细节丰富、有较强真实感的方法.首先生成3D Perlin噪声纹理并采样,再和气象数据的原始纹理以不同的比例进行融合.该方法可以让三维云整体有更好的立体感以及更佳的视觉感受.
视网膜血管分割对眼部疾病的自动分析和诊断具有重要意义.针对视网膜图像对比度低、血管细小导致血管分割困难的问题,本文提出一种结合注意力机制和条件生成对抗网络的视网膜血管分割方法.首先设计一个高低层(HL)特征注意力模块作用于高层和低层特征图,使模型分别加强高层和低层空间相关特征,剔除冗余信息,有助于模型更加关注血管前景信息,提高细小血管的分割精度;其次将高低层特征注意力模块与U型网络相结合,构成视网