Radeon HD 6970/6950图形技术解读

来源 :微型计算机 | 被引量 : 0次 | 上传用户:yybbxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  从4D+1D到4D:深入理NAMD 4D架构
  
  Radeon HD 6970/6950最为重要的改变就是从传统的4D+lD架构转变为4D架构,那么这样转变后的好处在哪里?AMD为什么要作出这样的调整?竞争对手NVIDIA又采用的是什么架构呢?
  
  4D+1D架构的不足
  
  AMD显卡传统的4D+lD结构可以在每次计算中处理一个像素的所有色彩或者坐标信息,不过考虑到有时候还需要一些特殊计算,比如sin、cos等,AMD还特别设itT一个ALU单元,称之为ALU0trans。这个特殊的单元和传统的用于计算四个ALU组成TAMD的4D+lD架构。
  从理论上来看,4D+lD架构的效能是非常出色的。因为它一次计算就能处理一个像素所有的色彩或者坐标信息。但现实和理想总是有差距的,像素点并不是总需要计算位置或者色彩。一些像素实际上只需要改变色彩,坐标不变,或者只是运动一下,色彩信息没有变化,亦或者只是色彩中的某个数据需要计算,其他的不需要。总之,在实际计算中,并不是所有的信息都需要计算,这就造成74D+ID架构中的部分单元的闲置。在最严重的情况下,4D+lD架构在遇到全部由1D组成的计算需求时,性能只有理论值的1/5。
  AMD212程师很早就在思考解决上述问题的办法,在R600以及后续的4D+1D计算中,AMD开始允许指令合并,也就是说几个不同的指令可以合并在一起进入流处理单元并进行计算。这样可以在部分场景下提升显卡的性能。比如说,两个2D指令接踵而来,传统计算是先计算一个2D,再计算另外一个2D,这样4D+1D架构的性能只有理论性能的40%,但一些新的设计可以允许这两个2D指令合并成一次计算,变成2D+2D,这样就能发挥80%的性能。与此类似的还有3D+1D、1D+1D+1D+1D+1D、1D+4D等特殊的复杂计算。
  虽然AMD利用了种种手段对4D+1D架构进行了优化,但改进的4D+1D架构的效率还是不够理想,在很多情况下部分晶体管都在打瞌睡。AMD的SIMD架构虽然效率不一定高,但好处是规模扩充相当容易,比如AMD的4D+1D流处理单元作为一个整体,只需要一个指令发射端就可以解决问题。Cypress拥有1600个流处理算数单元,320个指令发射端就可以了。但NVIDIA的MIMD 1D架构,每个ALU都需要发射端等辅助设计,晶体管开销巨大。再加上缓存、线程调度器、寄存器等周边设计,1D架构在芯片体积和规模上都有比较明显的劣势。这也是造成NVIDIA DircetX 11显卡功耗较高的一个主要原因。
  
  放弃4D+1D,转向4D
  
  从RV670开始,AMD一直奉行小核心策略,在一定程度上避开了工艺难度问题。但为了保证不错的性能,对晶体管效率就必须有很高要求。因此,AMD在研发了很长一段时间的SIMD架构后,掌握了大量显卡计算中的信息和数据,认为继续保持这样的4D+1D结构对晶体管利用率的提升已经没有太大帮助了。因此,AMD在新的Cayman中,将4D+1D改进为4D结构,抛弃了之前的1D。
  AMD放弃的1D,是一个体积比较大的、用于一些特殊计算的ALU.trans(NVIDIAN之为SFU)。在放弃这个单元后,AMD重新设计了Cayman剩余的4D,将这四个4D单元变为对等的四个ALE。不仅如此,这四个ALU通过“合纵连横”,接管了之前ALU.trans的计算任务,比如一些特殊计算,可能需要占用3个ALU,但考虑到4D+ID本身就不太高的效率,这样的取舍从理论上来说是可能提升晶体管利用率的。根据AMD给出的数据,在改变成4D结构后,整个单元的每平方毫米性能可以提升10%。
  不过效率的提升代价也相当明显。以定位相同的Radeon HD 5870为例,其具备1600个流处理算数逻辑单元(SPU),需要320个指令发射端(Radeon HD 5870是4D+lD架构,5D×320)。而Radeon HD 6970具备1536个流处理算数逻辑单元,SPU数量减少了,但指令发射端数量却增加到了384个(4D×384)。再加上周边一些辅助单元,整个晶体管规模就变得更为庞大。现在的Cayman晶体管数量达到了26.4亿,相比之前的Cypress的21.5亿提升了约23%,当然功耗也会随之提升。
  
  双头鹰:更强的双图形引擎
  
  对曲面细分技术的支持一直是AMD显卡的弱项,受到不少外界的批评。AMD认为,曲面细分只是DirectX11游戏的一个方面,对它的使用并非越高越好。在游戏中,过重的曲面细分系数并不会带来图形画质的明显提升,反而会由于过大的计算负荷导致显卡性能大跌。在之前的Cypress中,AMD设计了一个曲面细分单元。这样的设计只是达到了DirectX 11“拥有”曲面细分的基本需求。当然,在AMD推出第一代显卡时,DireetX 11游戏尚未发布,游戏要求也不高,因此AMD这样的设计也符合当时游戏的需求。在DirectX 11时代正式来临后,AMD就需要重新考虑显卡对DirectX 11的支持特别是对曲面细分的支持了。
  因此在Cayman中,我们看到了AMD全面加强了DirectX 11设计。首当其冲的就是最受关注的曲面细分性能。相比上代产品单曲面细分单元和NVIDIA的大量曲面细分设计而言,AMD经过衡量,确定了自己的曲面细分设计方法。AMD针对Cayman的曲面细分设计并不过于突出,而是有序加强。AMD将Cayman中负责曲面细分单元的图形引擎(Graphics Engine)由之前的Cypress的一个提升至2个,随之而来的则是负责曲面细分的几何单元、顶点单元以及曲面细分器数量也变成双份。除此之外,光栅器和多级z缓冲设计也都变成双份。整个双图形引擎的设计,提高了Cayman在处理三角形时的能力。现在Cayman能够实现多三角形的并行处理,理论上可以得到相对Cypress高达3倍的曲面细分性能提升。
  另外,Cayman在其他方面也有一定改进。比如后端单元的能力被进一步加强,能够实现合并操作,在16bit、32bit计算时的性能上都至少提升了2倍,其中32bit浮点性能提升了最多4倍。后端单元的性能直接决定了显卡的抗锯齿性能,Cayman在抗锯齿性能上应该会更为优秀。
  在通用计算方面,Cayman最重要的变化就是双精度性能由之前单精度性能的1/5提升到现在的1/4,当然这种变化多数都是由架构4D+1D改进到4D带来的。另外一些在通用计算上的变化包括可以执行Shader合并读操作、改进了流控制、可以直接从LDS读取数据(之前需要先载人寄存器)、可以读写本地显存数据等。总之,这些改进提升了Cayman在通用计算上的表现,特别在一些特殊应用 场合会有更为出色的表现。
  
  EQAA:更新的抗锯齿技术
  
  AMD最近在抗锯齿技术上的创新相当积极,在Barts系列上AMD推出了全新的MLAA技术。作为初次技术探索,AMD为我们展示了其在新技术研发上的实力。在新的Cayman显卡上,AMD又马不停蹄地带来了EQAA(Enhanced Quality Anti-Aliasing)技术。
  从技术本质本身来说,EQAA并非AMD首创,在NVIDIA的G80Az,我们就看到了和EQAA基本相当的CSAA技术。这两项技术都来源于MSAA,但通过覆盖采样和色彩采样分开选择,通过更多的覆盖采样点,获得更好的画质。
  AMD的EQAA目前有2×EQAA、4×EQAA和8×EQAA三种模式,其中2×EQAA类似2×MSAA搭配2个额外的覆盖采样点(2×MSAA本身还包括2个覆盖采样点); 4×EQAA则是4×MSAA搭配4个额外覆盖采样点(4×MSAA本身还包括4个覆盖采样点);8×EOAA是8×MSAA搭配额外8个覆盖采样点(8×MSAA本身还包括8个覆盖采样点)。相比NVIDIA的CSAA,AMD的EQAA增加了覆盖采样点的数量,比如8×CSAA只有8个覆盖采样点,和4×EQAA相同,但同级8xEQAA的覆盖采样点则多达16个,理论上EQAA的画质会稍微好—点。
  
  PowerTune:更智能的电源管理
  
  在节能省电的大潮下,能耗管理、电源管理技术成为众多高端产品的特殊符号。在显卡方面,AMD的PowerPlay技术能很好让显卡在2D状态下节约电能,但AMD还不满足,在Cayman上,又引入了更为节能且能够让用户手动进行控制的PowerZune技术。
  传统的PowerPlay设置了三种功耗状态:3D满载、3D轻载、2D待机,这三种功耗状态对应着高功耗、中等功耗和低功耗。在AMD看来,很多应用程序并不需要让显卡进行3D满载全负荷计算,但由于功耗设置的步进问题,在性能要求超过中等功耗后,显卡就工作在功耗最高的满载状态,这对节能来说是不利的。
  因此,AMD引入了PowerTune技术,PowerTune通过在中等功耗和满载功耗两档次之间引人更多的工作模式,让显卡在一些3D负荷较低的场景中自动降低频率。以Radeon HD 6950为例,核心频率波动频率范围是650MHz-780MHz,在3D应用中显卡频率会自动在此范围内切换,起到智能节能的作用。
  除此之外,PowerTune还能监控显卡的功耗情况,当显卡功耗超出设定上限后,PowerTune会自动降低显卡频率,将显卡功耗控制在限定值之内,保证显卡不会由于过热而烧毁。当然,为了让显卡可玩性更高,满足一些玩家和功耗敏感用户的需求,AMD在催化剂控制中心中还特别对PowerTune给出了上下限设置,其中上限为+20%,下限为20%,默认为O。当用户调整这个数值时,显卡的核心频率会有波动幅度的变化。
  总的来说,PowerTune是一种相当先进的功耗控制方式,和NVIDIA在GeForce GTX 580/570上引入的功耗检测和控制系统类似,但它功能又更为全面一些。PowerTune通过对显卡核心各个部分的监控,在性能、频率和功耗之间作出最合适的取台,可以智能调节动态功耗。我们认为,这种能耗控制的方法必将成为未来显卡的主流设计。
其他文献
回放CES 2012展会上的几个镜头,我们会发现很多有趣的现象:  1、英特尔与联想在本次展会上高调发布了首款基于x86架构的智能手机联想K800。联想K800搭载基于x86平台的英特尔单核双线程Atom Z2460芯片,主频达到了1.6GHz。按照英特尔的说法,单核的Atom Z2460已经足以抗衡目前流行的双核ARM处理器,从现场演示1080p高清视频和游戏的流畅程度来看,其性能值得期待。英特
经过2年时间的推广,联想的ThinkPad Edge系列逐渐树立了自己的两大标签—ThinkPad中的潮流先锋及平民英雄。尤其是平民英雄这个属性,使得许多预算有限的用户也能够有机会体验到ThinkPad多年的深厚沉淀。在E320问世之后,希望在便携性、预算以及使用体验之间寻求平衡的用户又多了一个选择。  ThinkPad的产品线已经逐渐形成了高低搭配的风格—高端的经典ThinkPad品牌强调高质高
14英寸的笔记本电脑偏重,13英寸的产品屏幕似乎又小了点……在选购笔记本电脑的时候,你是否也曾纠结于产品的尺寸?毕竟对于不少消费者而言,他们对于笔记本电脑的需求并不是非左即右—既要考虑日常使用中的舒适度,屏幕不能太小,键盘不能太窄,又希望在需要外出使用时,笔记本电脑的重量和大小不会成为负担。接下来要登场的这两款笔记本电脑,正是针对这些需求而出现的一类细分产品。  我们可以把Dell XPS 14z
从去年开始,平板市场就进入了平稳且略带下滑的衰退期。究其原因,与平板自身的产品属性、市场日渐饱和以及缺乏创新等方面都有密切关系。从数据上来看,根据IDC统计,2015年全球平板出货量为2.113亿台,相比去年下滑了8.1%。不过,尽管市场不太景气,平板领域也并非是一潭死水,依1日在硬件技术、产品形态、产品功能等方面寻求着突破。  “芯”技术,英特尔独领风骚  去年平板在处理器方面可谓是“百家争鸣”
随着《基际争霸2:自由之翼》正式版在2010年7月27日的发布,相信各位读者早已投入到歼灭虫族的战斗中。然而在游戏过程中,一些玩家却发现了各种各样的问题,如无法打开抗锯齿来改善画面品质,游戏运行流畅度较低、运行《星际争霸2》后,显卡温度上升很快等现象。接下来本文就将针对以上这些疑难杂症,开具一个切实有效的“处方”,让大家能更好地在《星际争霸2:自由之翼》中毂战斗。    抗锯齿问题缘何而来?   
国庆假期之前,我在网购平台上为全家购买了短途旅游保险后,突然想到这样一件事情,要是真的有什么意外,除了我还有谁知道我购买了保险?购买了什么样的保险?在哪家公司购买了保险呢?于是,我把购买凭证下载下来并打印交给了另外的家人保管以备不时之需。  这件事之后,基于IT行业的我想得更多了一些,在数字化时代,人们的数字财富该如何保管和继承?如果一个人突然因为意外去世,他的网络上的数字财富该如何被亲人所发现和
新手朋友想买一款称心如意的显卡并不容易,要考虑品牌、价位、性能以及诸多方面的因素。正当很多人看得脑袋都晕的时候,部分厂商还玩起了数字游戏,类似“12管线”、“36像素处理单元”这样的宣传话到处飞。仿佛数字越大的东西性能也一定越好。究竟是不是这么一回事呢?下面就让我们一起去看看吧!  稍微了解一点显卡知识的朋友们一定不会对“渲染管线”的这个词感到陌生。按照传统观念,一款图形显示芯片的渲染管线数量往往
近几年,微型音箱市场异常火爆,知名与不知名的厂商都在对市场发起进军。打价格战、产品同质化严重……这一切不得不让我们想起当年与之类似的MP3市场。微型音箱市场经后的路究竟该怎么走,厂商如何才能乐观地生存,市场如何才能健康地成长?带着这些疑惑,我们对国内五大知名微型音箱厂商进行了采访。    主动去适应市场需求    在雅兰仕看来,微型音箱的消费者需求应该是一个从功能需求到外形需求,最后到音质需求这样
从去年机箱出货量统计来看,金河田机箱的年出货量在400万套左右,占据了整个机箱市场出货量的1/4。新年伊始,它又向主流市场推出了新的SOHO系列机箱——7618B,力图打造一个适合SOHO一族的时尚,个性化的机箱产品。而作为金河田旗下第二品牌的金达,也于同一时间推出了新的傲游机箱——5002R,为新的一年开了一个好彩头。    追求个性化的金河田SOH07618B    SOH 07618B在前面
关于拜亚动力过去的成就和辉煌,相信耳机发烧友早已了如指掌,“技术流”专业厂商总是有其偏执的一面,这也导致拜亚动力过往对个人消费市场并不热衷,直到特斯拉技术的出现,直到推出T50P,这种状况才得以改善。T50P是拜亚动力产品线中的“唯一”,是在高端便携耳机领域的初次试水。拜亚动力希望借助这款全新概念的产品为品牌带来活力,而T50P是否能交出一份令人满意的答卷呢?    拜亚动力    1924年尤根