转帖：单精度浮点运算表现在游戏中是什么？起决定性作用吗？

wxc_36002 · wxc_36002

首款家用级Fermi GPU代号为GF100，这款GPU内含30亿个晶体管，核心面积达500平方毫米。相比之下，ATI刚刚推出的RV870 Cypress GPU核心面积仅为330平方毫米，内含21.5亿个晶体管，同样采用台积电的40nm制程。从两者的核心面积以及内含的晶体管数量上看，GF100与 RV870似乎完全不像是同一个数量级的产品。不幸的是，根据最近透露的一些消息，GF100的性能似乎并不不如原先人们预计的那样，比对手RV870高出不少。

首先一条值得注意的情况是有关单精度浮点运算能力的，尽管最近Nvidia在SC09会议上公布了新款Fermi架构Tesla 20系列产品的性能数据，但有心人会发现这些数据中根本找不到与单精度浮点运算能力有关的内容，他们只公布了这款产品的双精度浮点运算能力，这显然说明Fermi架构的性能优势主要体现在双精度浮点运算方面。

然而，即便是Fermi所擅长的双精度浮点运算方面，根据Nvidia最近在SC09上公布的数据，Fermi的实际性能似乎也比外界预期的要低出不少。Fermi Tesla20系列显卡的双精度浮点运算速度为520 GFlops至630 GFlops之间，而对手ATI的RV870 GPU双精度浮点运算速度则已经可以达到544GFlops的水平。核心工作频率方面，由于过去Geforce GTX280与同样基于GT220核心的Tesla C1060其GPU核心频率完全相同，因此我们同样有理由预计GF100 GPU的工作频率也不会比Tesla 20系列高多少。

我们再回过头来看看对游戏性能有更大影响的单精度浮点运算性能方面，GF100的表现可能会更糟糕。据称GF100的Shader clock目标频率为1.5GHz左右。而根据520/630GFlops的性能数字，我们可以大致估算出此时的Shader clock值仅为1015/1230MHz左右。

将双精度浮点运算速度的数据简单乘以二，GF100内部512个 CUDA核心的单精度浮点运算理论峰值速度将在1.05TFlops到1.26TFlops之间，而HD5870的单精度浮点运算理论峰值速度则可达 2.72TFlpos，即便是主流级别的HD5770，也可以达到1.36TFlops的峰值速度！即便Nvidia Fermin架构的单精度浮点计算效率可能比较高，但两者的差距依然相当巨大.

再来看看价格对比。之前的Tesla C1060 GPGPU显卡的售价是1699美元。相比同代的Geforce GTX280，后者售价为649美元（后来先后降价到了500，乃至300美元的价位）.而新一代Fermi架构的Tesla C2070则售价3999美元，几乎是Tesla C1060的一倍左右，当然这是面向服务器的产品，价格自然会比较高，但即便是最便宜的基于Fermi架构的Tesla C2050售价也达到了2499美元，比基于GT200的旗舰型Tesla C1060价格多出了一半！由此推测，GF100的售价恐怕也不会低到哪里去。

最后再来看Fermi架构双GPU型号显卡的情况，Tesla 20系列产品的TDP功耗约为190W，而HD5870的TDP功耗则为180W，GPU最大功耗为110W，双GPU的HD5970为274W，而GF100的TDP功耗据称将高达220W,这样功耗级别的GPU至少在近期内很难推出双GPU的显卡产品。

CNBeta编译
原文：vr-zone

JC：从单精度浮点计算来看，Fermi赶不上对手，就连专长的双精度方面也与对手差不多，再者虽有CUDA但是现在又有的DX11的Computer Shader来作为对手，又功耗很高，售价极高，这次nVidia的日子果然不好过啊。
——Jerry·C

印第安纳琼斯 · 印第安纳琼斯

完全不明白。
还是测测游戏帧数吧。

hhh0503 · hhh0503

看游戏的实际测试，和游戏的优化。显卡再强也无用

albert2kiss · albert2kiss

还是看跑游戏的流畅度吧

ppmian · ppmian

现在是流言四起,就怪NV迟迟不出.还是等明年看实际测试好了.

hoho4650 · hoho4650

废话一堆游戏里其作用的是显卡驱动驱动决定GPU的算法工作方式·！

		自动登录	找回密码
密码			立即注册