找回密码
 新注册用户
搜索
楼主: cuda

E5-2687W v2截图问世,居然只有8核,沦为低端啊。。。

[复制链接]
发表于 2013-7-28 08:18:37 | 显示全部楼层
automation 发表于 2013-7-27 22:40
哇塞 QS 的 2697v2  12核3G 这个才是目标啊 比2680V1真的提高了50%啊!

可惜2个淘宝卖家的 价都在13 ...

有没有考虑用Phi计算卡,这个编程比cuda方便,cpu版本的代码只需要少量修改就可以在Phi上运行
回复

使用道具 举报

发表于 2013-7-28 08:23:22 | 显示全部楼层
好东西
回复

使用道具 举报

发表于 2013-7-28 08:36:59 | 显示全部楼层
本帖最后由 automation 于 2013-7-28 08:38 编辑
wpf999 发表于 2013-7-28 08:18
有没有考虑用Phi计算卡,这个编程比cuda方便,cpu版本的代码只需要少量修改就可以在Phi上运行
...

考虑了,对我来说不方便。

我的程序是大量的高维向量数值运算(百万维数据,百万->无穷多的 样本),各维之间影响很小,用GPU可以高度并行。可以发挥出接近理论性能。

phi 2w的价钱 2T/1T 的性能。明显不如7k一块的titan 4.5T/1.3T 的性能。有性价比。

(phi倒是和K20 的3T/1T 性能差不多,如果需要ECC,这俩倒是要抉择一下)

而且phi是linux虚拟机的形式,和主机居然是靠网关传数据的。传输速度比GPU还要差点,适合传统的MPI程序移植。

但是60核只有6G RAM,现实中显然不会有这样的cluster啊,所以想移植原有程序,还是要改写的。

明年底的新一代phi 才会到达4T/2T。但是现在的K6000已经是5.2T/1.7T了。maxwell应该更厉害





回复

使用道具 举报

发表于 2013-7-28 09:29:32 | 显示全部楼层
automation 发表于 2013-7-28 08:36
考虑了,对我来说不方便。

我的程序是大量的高维向量数值运算(百万维数据,百万->无穷多的 样本),各维 ...

Phi和主机之间还是PCIE传输的,只是用的虚拟网卡,数据不经过网关(路由器)
回复

使用道具 举报

 楼主| 发表于 2013-7-28 10:57:30 | 显示全部楼层
automation 发表于 2013-7-28 07:59
哈哈,cuda同志需要更新以下对cuda的信息啦

512SP的工包480 双精度在750G左右 相当于telsa M2090。 ...
而GK110是compute capability  3.5          单双精度比是1/3。   所以tesla  K20 、gtx titan、780 、quadro K6000 都是1/3

TITAN和780属于游戏显卡,双精度难道没有再砍一刀?感觉nVidia不可能如此厚道啊,有没有看到过这方面的测试结果?
回复

使用道具 举报

发表于 2013-7-28 11:03:36 | 显示全部楼层
本帖最后由 automation 于 2013-7-28 11:05 编辑
cuda 发表于 2013-7-28 10:57
TITAN和780属于游戏显卡,双精度难道没有再砍一刀?感觉nVidia不可能如此厚道啊,有没有看到过这方面的 ...

http://tieba.baidu.com/p/2180103286





  从前面的分析我们已经知道GK110架构更多的是为加速计算考虑的,因此大幅加强了双精度浮点运算性能,而GTX Titan是面向游戏市场的,用不到这么多的双精度性能,而且还会额外增加不必要的功耗,因此在驱动面板中NVIDIA留了一手,GTX Titan显卡的1/3双精度性能默认是关闭的。

在驱动面板的3D选项设置中可以找到CUDA-Double precision的设置,默认是None,可以开启为GeForce GTX Titan。  这个设置也不是凭空多出来的,虽然NVIDIA官方给出的规格表上Titan显卡的单精度CUDA核心是2688个,双精度CDUA核心是8<1>96个,单精度性能是4.5TFLOPS,双精度性能是1.3TFLOPS,FP64理论性能是FP32单精度的1/3,这是标准的GK110核心的能力,但在GTX Titan显卡上,896个双精度CUDA核心数量没变,但是实际运行频率只有原有值的1/8,双精度性能实际上还是单精度的1/24,与GK104还是一样的比率,只不过绝对值高了。
  这种设置带来的后果就是驱动程序中开不开双精度选项对GTX Titan显卡在部分依赖双精度性能的测试中影响非常大,比如下面的OpenCL GPC Benchmark测试中。


在GPC Benchmark的双精度测试中,开与不开双精度选项的差距不是一星半点,开启之后性能至少有5-7倍的提高。

总结:
  从两个测试中可以看出,驱动面板中的这个选项对GTX Titan显卡的双精度浮点性能影响非常大,可以说是翻天覆地的变化,不开的话根本不能与HD 7970 GE相比,开了之后就能反败为胜。
  本来还想着用Luxmark的测试来对比双精度开关对功耗的影响,但是因为程序运行不起来,因此只用GPC Benchmark中的双精度测试简单对比了一下,不开双精度测试时观察到的峰值功耗是229W,开了之后看到的峰值功耗是237W,对整机功耗还是有一些影响的。

回复

使用道具 举报

 楼主| 发表于 2013-7-28 11:19:55 | 显示全部楼层
automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

确实是1/3,这对高性能计算真是个好消息。多谢提供数据。
回复

使用道具 举报

 楼主| 发表于 2013-7-28 11:22:52 | 显示全部楼层
automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

似乎只有TITAN能享受双精度x8福利,GTX 780还是不行。tomshardware有一篇评测是这么说的:

http://www.tomshardware.com/reviews/geforce-gtx-780-performance-review,3516-28.html
Although the GeForce GTX 780 shares large parts of its DNA with GeForce GTX Titan, the newer card’s driver does not offer the same option to speed up double-precision performance (at the cost of frequency)



回复

使用道具 举报

发表于 2013-7-28 11:24:39 | 显示全部楼层
本帖最后由 automation 于 2013-7-28 11:43 编辑
cuda 发表于 2013-7-28 10:57
TITAN和780属于游戏显卡,双精度难道没有再砍一刀?感觉nVidia不可能如此厚道啊,有没有看到过这方面的 ...

这次很厚道,titan没砍双精度   但是780的双精度大幅砍了:
http://www.expreview.com/25733.html




3494/190=18.3895   看来是1/18 啊

看来titan不是平白贵那么多的

titan只略微阉了hyper-Q。

用workflow可以实现grid级别的并行。而hyper-Q增加了硬件队列,可以让多个cpu线程控制多个workflow同时执行。

K20上是全规格的,内部可以同时有32个队列,也就是可以支持32个cpu线程的grid同时执行。

这样轻载任务通过CPU的MPI或者openMP 也可以让GPU充分满载。

超算上用E5的双路节点正好32线程,MPI状态下大家都可以用GPU了。

titan大概阉到8条队列吧。也就是说如果32个线程都递交了任务,最多只能同时执行8个,其他grid要等待。





fermi时代并行度很低:

compute capability 3.5 的 hper-Q:


在CUDA SDK 5.0中也有一个关于Hyper-Q的简单实例,启动32个并行stream,预计如果这32个stream串行执行,需要0.640秒,如果并行执行,理论上需要的时间只有1/32也就是0.020秒,但实际上执行了0.053秒。当然了理想状态和实际还是有一定差距的,但这也足以体现出并行执行的速度优势了。



回复

使用道具 举报

 楼主| 发表于 2013-7-28 11:58:29 | 显示全部楼层
automation 发表于 2013-7-28 11:24
这次很厚道,titan没砍双精度   但是780的双精度大幅砍了:
http://www.expreview.com/25733.html

GTX780的双精度限制看起来像是驱动里的限制,不知能不能破解。
Hyper-q若有8条队列应该也够用了,这个Hyper-q的例子里面0.640/0.053=12.057,并行度居然还超过8了。
回复

使用道具 举报

 楼主| 发表于 2013-7-28 12:01:31 | 显示全部楼层
playppboy 发表于 2013-7-28 07:31
看了那个网站,参数跟先前还是有差异,比如2680V2, 单频可以睿频到3.6G,
另外这几个u 真是口水啊, 性能要 ...

这个睿频差异可能是早期es版和正式版之间的差别,很可能是正确的。
wiki这帮人很强,不知是哪里搞来的资料,cpu-world之类的网站就差远了。
回复

使用道具 举报

发表于 2013-7-28 13:57:44 | 显示全部楼层
cuda 发表于 2013-7-28 11:58
GTX780的双精度限制看起来像是驱动里的限制,不知能不能破解。
Hyper-q若有8条队列应该也够用了,这个Hyp ...

相比破解驱动,我觉得改电阻应该更可能吧

http://www.pcpop.com/doc/0/890/890340.shtml

GTX 690的device ID是0x1188,K5000的device ID是0x11BA,关键就在于PCB背部的两个SMD电阻,阻值分别是20K和15K欧姆,如果想变成0x118F的Tesla K20,那么对应的电阻值就是5K和4K。

既然GTX 690换电阻变身专业级Tesla K10,那么titan或者780变K20应该也是差不多的原理



回复

使用道具 举报

 楼主| 发表于 2013-7-28 14:24:21 | 显示全部楼层
本帖最后由 cuda 于 2013-7-28 14:25 编辑
automation 发表于 2013-7-28 13:57
相比破解驱动,我觉得改电阻应该更可能吧。

http://www.pcpop.com/doc/0/890/890340.shtml


这个非常强大。看到EEVblog原贴作者说GTX680/690都改造成功了,TITAN原则上也没有困难。但GTX780是否也能这样改还不清楚。
可惜的是GTX680/690改过以后双精度性能都没有提高,应该是硬件构架限制。如果GTX780也能改造成功并且提升8倍双精度性能那就很有价值了。
若Xeon E5上也能研究出类似的针脚硬改超频手段就更好了,这在以前LGA771年代是可行的。
回复

使用道具 举报

发表于 2013-7-28 14:57:26 | 显示全部楼层
cuda 发表于 2013-7-28 12:01
这个睿频差异可能是早期es版和正式版之间的差别,很可能是正确的。
wiki这帮人很强,不知是哪里搞来的资 ...

貌似几个10核和12核单核睿频都提升800MHz
回复

使用道具 举报

发表于 2013-7-28 15:01:48 | 显示全部楼层
automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

你的程序里就用float类型不行吗,另外请教一下,fah是用的float还是double
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-9-29 08:13

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表