E5-2687W v2截图问世，居然只有8核，沦为低端啊。。。

wpf999 · 发表于 2013-7-28 08:18:37

automation 发表于 2013-7-27 22:40
哇塞 QS 的 2697v2 12核3G 这个才是目标啊比2680V1真的提高了50%啊！

可惜2个淘宝卖家的价都在13 ...

有没有考虑用Phi计算卡，这个编程比cuda方便，cpu版本的代码只需要少量修改就可以在Phi上运行

jerrytwh · 发表于 2013-7-28 08:23:22

好东西

automation · 发表于 2013-7-28 08:36:59

本帖最后由 automation 于 2013-7-28 08:38 编辑

wpf999 发表于 2013-7-28 08:18
有没有考虑用Phi计算卡，这个编程比cuda方便，cpu版本的代码只需要少量修改就可以在Phi上运行
...

考虑了，对我来说不方便。

我的程序是大量的高维向量数值运算（百万维数据，百万->无穷多的样本），各维之间影响很小，用GPU可以高度并行。可以发挥出接近理论性能。

phi 2w的价钱 2T/1T 的性能。明显不如7k一块的titan 4.5T/1.3T 的性能。有性价比。

（phi倒是和K20 的3T/1T 性能差不多，如果需要ECC，这俩倒是要抉择一下）

而且phi是linux虚拟机的形式，和主机居然是靠网关传数据的。传输速度比GPU还要差点，适合传统的MPI程序移植。

但是60核只有6G RAM，现实中显然不会有这样的cluster啊，所以想移植原有程序，还是要改写的。

明年底的新一代phi 才会到达4T/2T。但是现在的K6000已经是5.2T/1.7T了。maxwell应该更厉害

wpf999 · 发表于 2013-7-28 09:29:32

automation 发表于 2013-7-28 08:36
考虑了，对我来说不方便。

我的程序是大量的高维向量数值运算（百万维数据，百万->无穷多的样本），各维 ...

Phi和主机之间还是PCIE传输的，只是用的虚拟网卡，数据不经过网关（路由器）

cuda · 发表于 2013-7-28 10:57:30

automation 发表于 2013-7-28 07:59
哈哈，cuda同志需要更新以下对cuda的信息啦

512SP的工包480 双精度在750G左右相当于telsa M2090。 ...

而GK110是compute capability 3.5 单双精度比是1/3。所以tesla K20 、gtx titan、780 、quadro K6000 都是1/3

TITAN和780属于游戏显卡，双精度难道没有再砍一刀？感觉nVidia不可能如此厚道啊，有没有看到过这方面的测试结果？

automation · 发表于 2013-7-28 11:03:36

本帖最后由 automation 于 2013-7-28 11:05 编辑

cuda 发表于 2013-7-28 10:57
TITAN和780属于游戏显卡，双精度难道没有再砍一刀？感觉nVidia不可能如此厚道啊，有没有看到过这方面的 ...

http://tieba.baidu.com/p/2180103286

　　从前面的分析我们已经知道GK110架构更多的是为加速计算考虑的，因此大幅加强了双精度浮点运算性能，而GTX Titan是面向游戏市场的，用不到这么多的双精度性能，而且还会额外增加不必要的功耗，因此在驱动面板中NVIDIA留了一手，GTX Titan显卡的1/3双精度性能默认是关闭的。

在驱动面板的3D选项设置中可以找到CUDA-Double precision的设置，默认是None，可以开启为GeForce GTX Titan。　　这个设置也不是凭空多出来的，虽然NVIDIA官方给出的规格表上Titan显卡的单精度CUDA核心是2688个，双精度CDUA核心是8<1>96个，单精度性能是4.5TFLOPS，双精度性能是1.3TFLOPS，FP64理论性能是FP32单精度的1/3，这是标准的GK110核心的能力，但在GTX Titan显卡上，896个双精度CUDA核心数量没变，但是实际运行频率只有原有值的1/8，双精度性能实际上还是单精度的1/24，与GK104还是一样的比率，只不过绝对值高了。
　　这种设置带来的后果就是驱动程序中开不开双精度选项对GTX Titan显卡在部分依赖双精度性能的测试中影响非常大，比如下面的OpenCL GPC Benchmark测试中。

在GPC Benchmark的双精度测试中，开与不开双精度选项的差距不是一星半点，开启之后性能至少有5-7倍的提高。

总结：
　　从两个测试中可以看出，驱动面板中的这个选项对GTX Titan显卡的双精度浮点性能影响非常大，可以说是翻天覆地的变化，不开的话根本不能与HD 7970 GE相比，开了之后就能反败为胜。
　　本来还想着用Luxmark的测试来对比双精度开关对功耗的影响，但是因为程序运行不起来，因此只用GPC Benchmark中的双精度测试简单对比了一下，不开双精度测试时观察到的峰值功耗是229W，开了之后看到的峰值功耗是237W，对整机功耗还是有一些影响的。

cuda · 发表于 2013-7-28 11:19:55

automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

确实是1/3，这对高性能计算真是个好消息。多谢提供数据。

cuda · 发表于 2013-7-28 11:22:52

automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

似乎只有TITAN能享受双精度x8福利，GTX 780还是不行。tomshardware有一篇评测是这么说的：

http://www.tomshardware.com/reviews/geforce-gtx-780-performance-review,3516-28.html

Although the GeForce GTX 780 shares large parts of its DNA with GeForce GTX Titan, the newer card’s driver does not offer the same option to speed up double-precision performance (at the cost of frequency)

automation · 发表于 2013-7-28 11:24:39

本帖最后由 automation 于 2013-7-28 11:43 编辑

cuda 发表于 2013-7-28 10:57
TITAN和780属于游戏显卡，双精度难道没有再砍一刀？感觉nVidia不可能如此厚道啊，有没有看到过这方面的 ...

这次很厚道，titan没砍双精度但是780的双精度大幅砍了：
http://www.expreview.com/25733.html

3494/190=18.3895 看来是1/18 啊

看来titan不是平白贵那么多的

titan只略微阉了hyper-Q。

用workflow可以实现grid级别的并行。而hyper-Q增加了硬件队列，可以让多个cpu线程控制多个workflow同时执行。

K20上是全规格的，内部可以同时有32个队列，也就是可以支持32个cpu线程的grid同时执行。

这样轻载任务通过CPU的MPI或者openMP 也可以让GPU充分满载。

超算上用E5的双路节点正好32线程，MPI状态下大家都可以用GPU了。

titan大概阉到8条队列吧。也就是说如果32个线程都递交了任务，最多只能同时执行8个，其他grid要等待。

fermi时代并行度很低：

compute capability 3.5 的 hper-Q：

在CUDA SDK 5.0中也有一个关于Hyper-Q的简单实例，启动32个并行stream，预计如果这32个stream串行执行，需要0.640秒，如果并行执行，理论上需要的时间只有1/32也就是0.020秒，但实际上执行了0.053秒。当然了理想状态和实际还是有一定差距的，但这也足以体现出并行执行的速度优势了。

cuda · 发表于 2013-7-28 11:58:29

automation 发表于 2013-7-28 11:24
这次很厚道，titan没砍双精度但是780的双精度大幅砍了：
http://www.expreview.com/25733.html

GTX780的双精度限制看起来像是驱动里的限制，不知能不能破解。
Hyper-q若有8条队列应该也够用了，这个Hyper-q的例子里面0.640/0.053=12.057，并行度居然还超过8了。

cuda · 发表于 2013-7-28 12:01:31

playppboy 发表于 2013-7-28 07:31
看了那个网站，参数跟先前还是有差异，比如2680V2, 单频可以睿频到3.6G,
另外这几个u 真是口水啊，性能要 ...

这个睿频差异可能是早期es版和正式版之间的差别，很可能是正确的。
wiki这帮人很强，不知是哪里搞来的资料，cpu-world之类的网站就差远了。

automation · 发表于 2013-7-28 13:57:44

cuda 发表于 2013-7-28 11:58
GTX780的双精度限制看起来像是驱动里的限制，不知能不能破解。
Hyper-q若有8条队列应该也够用了，这个Hyp ...

相比破解驱动，我觉得改电阻应该更可能吧

。

http://www.pcpop.com/doc/0/890/890340.shtml

GTX 690的device ID是0x1188，K5000的device ID是0x11BA，关键就在于PCB背部的两个SMD电阻，阻值分别是20K和15K欧姆，如果想变成0x118F的Tesla K20，那么对应的电阻值就是5K和4K。

既然GTX 690换电阻变身专业级Tesla K10，那么titan或者780变K20应该也是差不多的原理

cuda · 发表于 2013-7-28 14:24:21

本帖最后由 cuda 于 2013-7-28 14:25 编辑

automation 发表于 2013-7-28 13:57
相比破解驱动，我觉得改电阻应该更可能吧。

http://www.pcpop.com/doc/0/890/890340.shtml

这个非常强大。看到EEVblog原贴作者说GTX680/690都改造成功了，TITAN原则上也没有困难。但GTX780是否也能这样改还不清楚。
可惜的是GTX680/690改过以后双精度性能都没有提高，应该是硬件构架限制。如果GTX780也能改造成功并且提升8倍双精度性能那就很有价值了。
若Xeon E5上也能研究出类似的针脚硬改超频手段就更好了，这在以前LGA771年代是可行的。

futchi · 发表于 2013-7-28 14:57:26

cuda 发表于 2013-7-28 12:01
这个睿频差异可能是早期es版和正式版之间的差别，很可能是正确的。
wiki这帮人很强，不知是哪里搞来的资 ...

貌似几个10核和12核单核睿频都提升800MHz

wpf999 · 发表于 2013-7-28 15:01:48

automation 发表于 2013-7-28 11:03
http://tieba.baidu.com/p/2180103286

你的程序里就用float类型不行吗，另外请教一下，fah是用的float还是double

		自动登录	找回密码
密码			新注册用户