多核处理器下预取策略的研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:linjr82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内存访问延迟一直是制约计算机系统整体性能的瓶颈,计算与存储之间性能上的鸿沟导致CPU的运算能力因访存操作而产生大量的空等时间。Cache技术可以有效地缓解或隐藏存储访问延迟,Cache利用局部性原理存储CPU频繁访问的指令和数据以减少处理器的访存次数。但是由于单芯片所能提供的带宽、Cache等存储资源有限,片上多核处理器(CMP)对这些共享存储资源的竞争访问导致“存储墙”问题更加严重,因此Cache预取技术研究对提高CPU的性能和效率有重要意义。   预取技术可以隐藏存储访问延迟,通过计算和访存的重叠在Cache可能会发生失效之前发出预取请求以便提前将数据取回Cache使流水线无停顿的执行。同时预取必须保证及时、准确并且产生尽可能小的额外开销。另外预取的负面效应也是必须考虑的因素,例如Cache污染(即把将要使用或频繁使用的数据替换出Cache,而换入未来不会被使用的数据)和带宽的浪费。   目前绝大多数的主流CMP处理器都使用私有一级(或一级和二级)Cache,共享二级(或三级)Cache的片上存储结构。这种结构通过共享最后一级Cache和更低的存储层,最大限度的提高资源利用率避免重复开销。但是共享Cache技术也带来一些负面影响,如多个核竞争访问共享Cache使部分核无法及时获取数据,流水线的吞吐率下降,盲目Cache块的替换增加。如果共享Cache访问缺失,处理器需要等待数十甚至上百个CPU周期,数据存取将成为计算中更为严重的性能瓶颈,CMP的计算效能无法充分发挥。所以如何增加Cache访问命中率和保证及时的数据预取是CMP面临的挑战。   文章首先讨论了软件预取、硬件预取和软/硬件混合预取技术的优劣,重点介绍了硬件预取技术的研究成果:Runahead execution、Future execution和Dual-core execution,在分析了三种预取技术的特征之后提出了将Runaheadexecution与Future execution结合起来的构想,并在Simics模拟器上将其实现。   文章以减少二级Cache访问缺失、提高二级Cache命中率为主要目标,利用CMP充足的计算资源实现预取,对目前较为新颖的预取技术提出改进,实验结果表明改进后的预取架构在未过分牺牲计算资源的情况下取得了较高的Cache命中率,提高了CMP的效能。
其他文献
随着网络信息的迅速增长,如何提高信息检索系统对自然语言的处理能力,成为了研究热点。文本关联性计算作为信息检索处理中一项基础性技术,直接影响着检索结果的好坏。而传统的基
随着互联网的普及和电子商务的飞速发展,网络上的商品信息严重“过载”,用户很难在大量的商品信息中找到真正需要的商品。电子商务推荐系统根据用户个人的习惯和偏好向用户推荐
进入21世纪以后,教育信息化程度将是衡量一个国家教育现代化程度的重要标志。经过多年建设,我国在教育信息化方面已经取得巨大成就。但是,由于我国幅员辽阔,人口众多,区域之
随着数据的爆炸式增长,分布式网络存储系统以高性能、高可靠性和大容量的优势成为当今研究的热点。为了在提高系统可靠性的同时降低容量开销,将传统集中式RAID技术引入分布式网
计算机视觉的目标是通过感知的图像理解世界中的各种物体。需要理解的物体的属性信息众多,其中最重要的信息是物体的整体三维结构,所以基于视觉图像的三维重构自从计算机视觉
功能验证是芯片设计流程中最复杂、最耗时的工作,面临的最主要挑战是如何在有限的时间和计算资源的约束下,暴露尽可能多的设计错误,以提高对芯片功能正确性的自信程度。微处理器
随着计算机飞速发展以及互联网技术的普遍应用,互联网的安全问题也日益突出,而面对日益严重的互联网安全问题,传统的基于被动的互联网防御技术由于其对攻击者了解不足,再加上
图像拼接技术是扩大图像视场范围应用的一项必不可少的关键技术。但现有的图像拼接技术研究大都对800x600以下的图像进行研究,为了提高图像拼接技术的实用性,本系统针对大分
P2P流媒体是目前互联网的热门研究话题,但是现有的P2P流媒体应用存在用户体验差的问题,表现为启动延迟大、播放延迟大、播放持续性差、画面质量不高等,而造成这些问题的根本
作为工业制造装备的执行机构,伺服系统性能直接决定着整个装备的控制性能。目前高性能伺服领域被国外厂家所垄断,研发具有自主知识产权的高速高精度的伺服系统具有重要意义。课