|
ATI R2000系列和Nvidia G8000系列的Streaming Processor的架构差异
ATI R2000 的 Streaming Processor 是五项目共工,其驱动提升力度比较大,但是驱动活动性相对狭窄;
Nvidia G8000 的 Streaming Processor 是五项目分工或兼工,其驱动提升力度相对小些,但是驱动的活动性相对宽广!
我的简述已经说明问题了!
实际上ATI RX2900XT的320流处理器的真实数量才320/5=64个;X2600的120流处理器的真是数量才120/5=24个;X2400的40流处理器的真实数量才40/5=8个!
那为什么64、24、8的可以和Nvidia的8800GTX、GTS的128、112、96;8600GTS、GT的32;8500GT的16个相抗衡了呢?
这是因为ATI RX2000的流处理器是全部都在工作,而Nvidia G8000的是工作数量是大于等于五分之一但是小于且等于一,所以在驱动方面的软性性能提升方面,ATI RX2000是平均提升效果大于Nvidia G8000,而总体提示方面则是Nvidia 8000大于ATI RX2000!
举例:ATI RX2900XT 64个5分支总体为320个100量每个为其极限,目前是80量值,驱动的软提升理论就是100,我目前优化分配到88个,那么就是从[80*64*5=25600]到[88*64*5=28160],提升了10%;Nvidia G8800GTX 128个5分支总体为640个100量每个为其极限,目前是80量值,驱动的软提升理论就是100,我目前优化分配到88个,那么就是从[(80*128*5)/5到(80*128*5)=10240到51200之间]到[(88*128*5)/5到(88*128*5)=11264到56320之间],提升了10%。虽然都是一样的提升值[10%],但是Nvidia G8000系列却有个0.20全量到1全量的波动值!因为游戏中Microsoft的API、驱动、游戏三维指令不可能让G8000系列有0.20到0.40的波谷运行时段,而只以大于等于0.40时段的运行,所以从0.20……1到0.99……9的值中从0.50……1到0.99……9是肯定大于0.5的!最后大家别忘记了Nvidia G80家族的流处理器的频率从其8500GT的900MHz到8800GT的1.5GHz,还有个别超频的8800GT的1.75GHz 这也是为了弥补0.20……1到0.49……9的流处理器的空闲时段的不足的原因!
也就是我说的ATI RX2000的驱动提升每个流处理器的力度[10%]比较大,但是其整体的死型架构却导致其没有了总体提示的可能!而Nvidia Geforce 8000由于其活性架构导致其每个流处理器的提升力度[2%---10%之间浮动(一个统一流处理器是由五个分支处理器构成,所以要除以五)]比较小,但是其灵活机制却可以有接近五倍的波动提升!
-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
ATI Radeon HD X2000系列与Nvidia Geforce 8000系列的流处理器的内部差异
代表:ATI Radeon HD X3870、Nvidia Geforce 8800GTSG92E
图片说明:Vertex Shader Unit 顶点引擎单元;Pixel Shader Unit 像素引擎单元;Gemotry Shader Unit 几何学引擎单元。时段、就是每Hz的数据处理概况。
论述:
一、ATI Radeon HD X2000的流处理器工作方式优点以及缺点
工作方式:ATI的工作方式为在每Hz处理图形图像数据是:几何学引擎单元全体工作、顶点引擎单元和像素引擎单元也全体工作,在每丛流处理器内部由驱动程序进行顶点引擎单元和像素引擎单元的比例动态平衡。[小统一流处理器]
优点:可以进行每丛流处理器内部的顶点引擎单元和像素引擎单元的比例进行动态平衡,与邻丛干系不大且相干性若,但是灵活性小。
缺点:由于其内部动态平衡顶点引擎单元和像素引擎单元的比例,且每丛比例不一致(例如:64丛*每丛5分支-几何学固定64支=256分支流处理器中的0丛1比3、1丛2:2、2丛3:1等等,而不全然是0丛A:B),所以导致其驱动开发十分艰难。
二、Nvidia Geforce 8000的流处理器工作方式优点以及缺点
工作方式:Nvidia的工作放松是在每Hz处理图形图像数据是:几何学引擎单元全体工作、顶点引擎单元和像素引擎单元并不是全体工作,而是每丛工作其二分之一,在全体流处理器之间进行全局的顶点引擎单元和像素引擎单元的动态平衡。[大统一流处理器]
优点:由于可以进行全局的顶点引擎单元和像素引擎单元的统一调配,可以在全局内部进行其比例分配(例如128丛*每丛5分支-几何学固定128支=512分支流处理器中可以进行128顶点:384像素、128像素:384顶点、256顶点:256像素、64顶点:448像素、64像素:448顶点等等),这就是灵活性比较大。
缺点:会导致每Hz有了动态的50%的时间空闲,从全局观来说,比较浪费空闲的流处理器的资源。
代表相敌
比较:例如渲染一个场景:一棵树木、一片绿野、一座房屋、一弯小溪中在树冠、小溪波鳞、草叶需要大量的顶点;而树干、地皮、小溪水面(波鳞除外)、房屋需要大量的像素。
在ATI Radeon HD X2000的全局流处理器中,渲染这个场景就需要驱动来各自调配每丛流处理器的顶点引擎单元和像素引擎单元,320分支[实际是256分支],就要每丛4支的单独由驱动来动态平衡其比例,导致全局效率下降,但是会导致局部效率增加,产生效能性能孤岛状态效应,导致下桢数据迟滞。
在Nvidia Geforce 8000的全局流处理器中,渲染这个场景就需要驱动来总体概略的调配所有的流处理器的顶点引擎单元和像素引擎单元,640分支[实际是512分支],全体的由驱动统一调配平衡其动态比例,这样就会更大化的利用为ATI Radeon HD X2000两倍的流处理器分支,虽然其50%是每Hz空闲,但是由于其外部工作原理与ATI Radeon HD X2000的不同,导致其全局流处理器的利用率平衡在90%--100%之间,从而弥补了这50%的先天架构空闲。
当然这只是理论,毕竟游戏中还有全屏抗锯齿,高动态光线阴影与物理计算等等多种特效,所以所有的流处理器分支并不是全然作为顶点引擎单元和像素引擎单元之作用!虽然这是理论,但是在游戏的实践中距离理论的框架是不远的,因为理论引导实践,实践修正理论!
|
|