Nvidia Fermi桌面型显卡实际性能可能与预期存在极大差距

zglloo · 发表于 2009-11-17 17:28:12

根据VR-Zone最近的报道，这款产品的性能水平似乎与人们先前的预计有着极大的差距。下面，就让我们暂时忘记这款产品的姗姗来迟，更多关注一下Fermi桌面型显卡本身可能达到的性能水平。

首款家用级Fermi GPU代号为GF100，这款GPU内含30亿个晶体管，核心面积达500平方毫米。相比之下，ATI刚刚推出的RV870 Cypress GPU核心面积仅为330平方毫米，内含21.5亿个晶体管，同样采用台积电的40nm制程。从两者的核心面积以及内含的晶体管数量上看，GF100与 RV870似乎完全不像是同一个数量级的产品。不幸的是，根据最近透露的一些消息，GF100的性能似乎并不不如原先人们预计的那样，比对手RV870高出不少。

首先一条值得注意的情况是有关单精度浮点运算能力的，尽管最近Nvidia在SC09会议上公布了新款Fermi架构Tesla 20系列产品的性能数据，但有心人会发现这些数据中根本找不到与单精度浮点运算能力有关的内容，他们只公布了这款产品的双精度浮点运算能力，这显然说明Fermi架构的性能优势主要体现在双精度浮点运算方面。

然而，即便是Fermi所擅长的双精度浮点运算方面，根据Nvidia最近在SC09上公布的数据，Fermi的实际性能似乎也比外界预期的要低出不少。Fermi Tesla20系列显卡的双精度浮点运算速度为520 GFlops至630 GFlops之间，而对手ATI的RV870 GPU双精度浮点运算速度则已经可以达到544GFlops的水平。核心工作频率方面，由于过去Geforce GTX280与同样基于GT220核心的Tesla C1060其GPU核心频率完全相同，因此我们同样有理由预计GF100 GPU的工作频率也不会比Tesla 20系列高多少。

我们再回过头来看看对游戏性能有更大影响的单精度浮点运算性能方面，GF100的表现可能会更糟糕。据称GF100的Shader clock目标频率为1.5GHz左右。而根据520/630GFlops的性能数字，我们可以大致估算出此时的Shader clock值仅为1015/1230MHz左右。

将双精度浮点运算速度的数据简单乘以二，GF100内部512个 CUDA核心的单精度浮点运算理论峰值速度将在1.05TFlops到1.26TFlops之间，而HD5870的单精度浮点运算理论峰值速度则可达 2.72TFlpos，即便是主流级别的HD5770，也可以达到1.36TFlops的峰值速度！即便Nvidia Fermin架构的单精度浮点计算效率可能比较高，但两者的差距依然相当巨大.

再来看看价格对比。之前的Tesla C1060 GPGPU显卡的售价是1699美元。相比同代的Geforce GTX280，后者售价为649美元（后来先后降价到了500，乃至300美元的价位）.而新一代Fermi架构的Tesla C2070则售价3999美元，几乎是Tesla C1060的一倍左右，当然这是面向服务器的产品，价格自然会比较高，但即便是最便宜的基于Fermi架构的Tesla C2050售价也达到了2499美元，比基于GT200的旗舰型Tesla C1060价格多出了一半！由此推测，GF100的售价恐怕也不会低到哪里去。

最后再来看Fermi架构双GPU型号显卡的情况，Tesla 20系列产品的TDP功耗约为190W，而HD5870的TDP功耗则为180W，GPU最大功耗为110W，双GPU的HD5970为274W，而GF100的TDP功耗据称将高达220W,这样功耗级别的GPU至少在近期内很难推出双GPU的显卡产品。

BiscuiT · 发表于 2009-11-17 17:41:29

双精度符合要求就可以了。。反正是面向 HPC

BiscuiT · 发表于 2009-11-17 17:43:16

NVIDIA今天终于把全新的Fermi架构带到了世人面前，但并不是面向桌面市场的GeForce系列显卡，而是针对高性能计算(HPC)领域的Tesla 20系列并行处理器和系统。

Tesla 20系列产品包括两大部分：

1、面向工作站客户的Tesla C2050/C2070 GPU计算处理器
－单GPU
－尺寸9.75×4.376英寸(24.77×11.12厘米)
－ PCI-E 2.0 x16系统接口
－最多3GB/6GB GDDR5显存 (开启ECC之后可用2.625/5.25GB)
－双精度浮点峰值性能520-630GFlops
－双插槽主动风扇
－功耗典型190W、最大225W
－软件开发包(SDK)：CUDA C/C++/Fortran、OpenCL、DirectCompute Toolkits

2、面向数据中心客户的Tesla S2050/S2070 GPU 1U计算系统
－四GPU
－尺寸17.425×28.5×1.71英寸(44.26×72.39×4.34厘米)
－ PCI-E 2.0 x16系统接口
－双精度浮点峰值性能2.1-2.5TFlops
－最多12/24GB GDDR5显存 (开启ECC之后可用10.5/21GB)
－功耗典型900W、最大1200W
－软件开发包(SDK)：CUDA C/C++/Fortran、OpenCL、DirectCompute Toolkits

Fermi Tesla 20主要技术特点：
－支持下一代IEEE 754-2008双精度浮点标准
－支持ECC(错误校验码)以提高可靠性和精确度
－一级、二级多层缓存体系
－支持C++编程语言
－支持最多1TB系统内存
－并行内核执行、快速上下文切换、10倍速度原子指令、64位虚拟寻址空间、系统调用与递归函数

Tesla 20系列产品目前只是纸面发布，要到2010年第二季度才会上市销售，价格方面Tesla C2050 2499美元、Tesla C2070 3999美元、Tesla S2050 12995美元、Tesla S2070 18995美元，主要经销商有AMAX、Colfax、JRTI、Microway、Penguin Computing、Silicon Mechanics。

PS：
NVIDIA在官方新闻稿中补充说，基于Fermi架构的GeForce桌面显卡将于2010年第一季度发布上市，这也是NVIDIA第一次官方公开提及下代显卡的发布时间。

zglloo · 发表于 2009-11-17 18:00:12

双GPU HD5970本月18日发布，最大功耗为294W

ATI/AMD终于正式发布了双GPU显卡HD5970的官方规格参数，这款显卡将于本月18日发布。卡上搭载两块RV870 GPU，GPU工作频率为725MHz，流处理器单元总数为2x1600，显存容量为2GB GDDR5，显卡最大功耗为294W。其它参数规格可以参阅我们之前的这篇文章。

*流处理器数量：2x1600，纹理单元数量：2x80；
*GPU核心频率：725MHz（与HD5850相同）；
*显存种类：GDDR5,显存位宽：256bit，显存频率：1000（x4）MHz，显存容量：2GB；
*显卡最大功耗:294W。
_____________________________________________________________________
饼看到这消息其实我想转用A卡

[ 本帖最后由 zglloo 于 2009-11-17 18:01 编辑 ]

BiscuiT · 发表于 2009-11-17 18:30:09

Fermi 要兼顾通用。。牺牲的往往就是性能。。
要是GPU能把CPU能做到东西都做到了。。那CPU早就实现GPU级别的性能了。。

Fermi 貌似还要半年才能量产。。桌面版的 G300 会更晚一些。。
不过要注意。。G300 和 Fermi 是分开的。。Fermi 不会出现在民用上。。成本耗不起。。
G300 会砍不少东西。。Fermi 有40%的晶体管是为了通用计算。。对图形性能几乎没有一点帮助。。

我在用 HD5770

反正BOINC项目多，总有适合GPU的。。只要对口，就可以狂飙～通用也就是说参与度更好一些咯～
HD 5970 我估计它在 Collatz Conjecture 上可以达到 RAC 300,000+

zglloo · 发表于 2009-11-17 19:39:40

原帖由 BiscuiT 于 2009-11-17 18:30 发表

要是GPU能把CPU能做到东西都做到了。。那CPU早就实现GPU级别的性能了。。

我觉得实现是不太现实，不然CPU岂不是要退出历史舞台！我觉得GPU流处理虽然强大但是我觉得程序员学习成本确实大，我也期望通用计算的成熟这样起码不像并行高性能计算那样高高在上不能平民化~
我像转入A卡我认为虽然A卡理论峰值高也不是虚的，主要是现在若是真要有大牛程序员那种优化其实 A能超过N很多~（个人观点）

[ 本帖最后由 zglloo 于 2009-11-17 19:41 编辑 ]

hicherse · 发表于 2009-11-17 20:22:22

这文章的水平可真够呛

理论值的比较已经进行了3年了，到现在还是理论值低的N卡高于理论值高的A卡……

我也同意大牛来优化A卡的通用计算程序，我也希望全世界的编程大牛都来为A卡加速，问题是要让VLIW下的SIMD达到满载，对程序员人脑的消耗太大了。

VLIW是实现操作并行性开发的重要途径，虽然有指令定长适合流水的特点，而且业界也公认VLIW和SIMD技术相结合可以获得更高的性能加速比。但这句话仅限于多媒体数据处理，通用计算完全是另一回事。

BiscuiT · 发表于 2009-11-17 20:39:12

计算部件体系结构的一个基本原则

相同规模的计算部件，在设计水平差异不大的情况下，越是专用，性能越高，效率越高，应用面越窄；越是通用，性能越低，效率越低，应用面越宽，成本越低。
GPGPU 如果以GPU 的计算特点，做接近的计算类型，其效能，效率，都会很高，如果试图扩展应用领域，增加通用性，必然付出比较大的代价，有时候这个代价是要命的。
Manycore CPU 做图形计算，和GPU 做通用计算，我不认为这两种是一类产品，虽然它们可能最终重合。
tomsmith 发表于 2009-11-16 11:20

我入5系是想玩 Eyefinity

准备3屏～

zglloo · 发表于 2009-11-17 21:51:10

这么有米啊~ 期待饼你放图！小问下大概需哪些设备多少米呢？还有你要是入手触摸屏那就更牛了

[ 本帖最后由 zglloo 于 2009-11-17 21:53 编辑 ]

BiscuiT · 发表于 2009-11-17 22:03:20

以前要这么玩就需要很多米。。现在不用多少米哇。。

一片5系列卡，支持3输出即可。。然后就是3个mon，不过必须有一个mon使用 displayport 接口。。
现在22' mon 也不贵，Dell 有一款 P2210 就有DP接口，没有DP口mon也可以用那些主动DP转DVI 的转接头。。

触摸屏不见得好玩吧。。每天都要清洁屏幕就够烦死了。。

kittyjia · 发表于 2009-11-18 14:42:02

低的太低，GT210，220，分别只有16个，48个流处理器；高的太高，GT300。其实就靠中端打天下，不明白为何会有GT260，275，285即将停产的流言。如果真是这样，NV江山拱手让给ATI算了。

Tlabs · 发表于 2009-11-19 23:37:44

啷个不能把Tesla下下来跑一下游戏看分数如何呐？其实也相当于直接评测Fermi了吧？

mooncocoon · 发表于 2009-11-19 23:57:58

提示: 作者被禁止或删除内容自动屏蔽

foxhound · 发表于 2009-11-20 11:45:50

原帖由 BiscuiT 于 2009-11-17 20:39 发表

我入5系是想玩 Eyefinity

准备3屏～

求你桌面上的18禁~~~~

原帖由 mooncocoon 于 2009-11-19 23:57 发表
没有所谓的对图形没有意义的晶体管，跑通用运算适合的构架，跑重载shader都会很强悍，反过来则是跑通用计算羸弱的构架，跑重载shader都会很弱。这话虽然不严谨但到目前为止还是正确的
NV的问题，或者说到目前为止都没有彻底甩 ...

有个问题就是G8X G9X G2XX的浮点计算只有3分之2可以运用到图形上，那还有3分只1可以用来计算物理加速么？

[ 本帖最后由 foxhound 于 2009-11-21 14:21 编辑 ]

BiscuiT · 发表于 2009-11-20 19:03:17

deleted

		自动登录	找回密码
密码			新注册用户

mooncocoon mooncocoon 当前离线积分 3305 UID 3367 在线时间小时最后登录 1970-1-1 头像被屏蔽	发表于 2009-11-19 23:57:58 \| 显示全部楼层提示: 作者被禁止或删除内容自动屏蔽
	[2020.03.10] BOINC 版本 7.16.5 客户端已正式发布，推荐大家更新！
	回复使用道具举报

Nvidia Fermi桌面型显卡实际性能可能与预期存在极大差距

回复 #3 BiscuiT 的帖子

回复 #4 zglloo 的帖子

回复 #6 zglloo 的帖子

回复 #8 BiscuiT 的帖子

回复 #9 zglloo 的帖子

回复 #14 foxhound 的帖子