一款多核处理器的核间互连和访存接口的设计与优化

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaomay2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理器的发展在过去30年中,一直以提高芯片的主频和开发指令间并行度ILP(Instruction-LevelParalellism)为设计主导,性能大概每年提高50%~60%,而由时钟频率带来的性能提高占到总性能提升的4/5。在当前单核处理器的性能依靠频率提升和开发ILP达到瓶颈的情况下,片上多核处理器作为一种解决方案,逐渐成为处理器开发的趋势,其主要思想是利用片上丰富的晶体管资源,集成多个处理器核,在指令级、线程级等多个层次上开发并行性,以达到更高的性能。而一直影响处理器性能提升的“存储墙”问题在多核处理器开发中也成为一个不可忽略的问题。  本文基于北大众志微处理器研发中心正在研发的多核处理器UniCore-3项目,重点关注多核之间互连结构以及访存接口的设计、验证及性能评测,完成了互连结构的实现并进行了适当的优化。文章完成的主要工作包括:  ●调研分析多款多核处理器的核间互连、Cache层次组织结构、一致性解决方案等多核处理器设计中必须关注的问题,分析了UniCore-3处理器的具体需求,包括IMMU、DMMU、ICache、DCache及L2Cache等模块,确定了采用SCU(SnoopControlUnit)来解决一致性问题,互连结构采用AMBA3.0AXI总线实现;  ●根据需求分析及实现难度分析,确定了互连结构及访存接口的实现采用NIC-301互连IP实现CIU、SIU、BIU的多层总线结构,并且分析了寄存器配置、特殊交易实现、死锁问题等实现过程中可能会影响时序、面积、性能等的关键问题并完成实现;  ●完成功能验证、时序面积优化及性能评测优化。功能验证工作重点关注交易分发、ID分配、一致性特殊操作等情况,最终在模拟环境中,完成了互连结构及访存接口的系统级功能验证工作。性能评测工作主要采用硬件性能检测器来完成,主要监测了实际指令执行过程中交易的延迟、交易次数等数据。通过性能评测发现,模拟环境中,添加L2Cache可以明显减少读写操作的交易延迟,而对于主存的读、写交易延迟普遍较大,这与目前系统中采用的主存类型及性能有关;多核情况下,核间进行数据传输的延迟受到是否存在交易冲突影响较大。
其他文献
随着大数据时代的到来,来自互联网及生活中的海量多源异构数据正以前所未有的速度产生并积累,这些数据之间存在着紧密的关联性,如何对其进行有效地分析和挖掘是目前工业界和学术
随着遥感技术和航天事业的不断发展,遥感图像处理的应用需求越来越大,技术要求越来越高,而图像配准作为其中一项重要的技术,同样存在高需求和高技术要求的问题。  图像配准是指
为解决大量机械总加工的单件和小批量生产的自动化难题,上世纪50年代出现了数控机床。它综合应用了电子、计算机、检测、自动控制和机床结构设计等各个技术领域的众多成就。数
合成孔径雷达干涉测量技术(Synthetic Aperture Radar Interferometry,简称InSAR)是新近发展起来的空间遥感技术,它是传统的SAR遥感技术与射电天文干涉技术相结合的产物。通过对
随着虚拟机技术的逐渐成熟和广泛应用,虚拟化平台上的安全问题也逐渐显现。作为最常见的资源保护手段之一,访问控制机制在虚拟化平台上的实现已经成为一种必要的手段。但现有的
随着生物信息学的蓬勃发展和计算机技术的不断进步,生物分子的三维结构显示对于生物信息的分析起着越来越重要的作用。生物分子结构可视化的目的在于借助计算机图形学及可视化
日地空间系统科学是研究太阳、太阳到地球之间的行星际空间和地球空间中自然现象及其规律的学科,其数据具有体量巨大、种类繁多、结构复杂的特征,不同概念、不同事件之间的相
在网络技术高度繁荣的Web2.0时代,网络信息呈现出爆炸性增长,互联网已经逐步发展成为一个全球巨大的共享信息仓库。如何从海量的信息库中快速且准确的获取到用户所需的信息,
传统时钟树设计方法学以零扭斜为目标,认为更小的时钟扭斜可得到更小的时钟周期即更优的电路性能。但理论和实践均表明,合理的有用时钟扭斜设计能有效提高电路的整体性能,它有利
随着计算机网络和通信技术的发展,电力系统中的变电站趋于数字化、自动化和智能化,变电站网络的通信数据量越来越大,对变电站网络通信的监视和分析变得越来越重要。现代高性能计