找回密码
 新注册用户
搜索
楼主: jack970906

[求助] 显存的位宽对于GPU运算影响大么?

[复制链接]
发表于 2009-11-27 18:51:52 | 显示全部楼层

回复 #14 jack970906 的帖子

那、其實你的卡的計算能力還是可以接受了
如果不是為了打遊戲而更換更強力的顯卡的話、建議等一下Nvidia的新卡、到時價格應該會親切一些
另外用顯卡跑計算要注意下机器的散熱能力
回复

使用道具 举报

 楼主| 发表于 2009-11-27 20:30:10 | 显示全部楼层

回复 #16 Rouble 的帖子

基本上两年要更新一下计算机,不过不是全部更新啊。

这卡用了两年了,就数它最老了,所以就选择换它了。

只所以不换N卡,这也是偷懒,驱动更新起来方便点。

至于游戏,不会刻意追求,时间上也不允许。

网上看了一下,40nm的5770,对散热控制的比较好,而且比较省电,据传350W的电源都没有问题,我用的是500W的电源,问题不大了。

从你的成绩看,核心的频率对计算的速度影响还是不小的。

[ 本帖最后由 jack970906 于 2009-11-27 20:35 编辑 ]
回复

使用道具 举报

发表于 2009-11-27 21:06:42 | 显示全部楼层
原帖由 supertoby 于 2009-11-27 16:44 发表
cicikml 版版~~~过多3,5天我分数可能就超过你啦~~哈哈


没办法,我的硬件有限,最近只能主攻FAH项目了……可惜了^O^
回复

使用道具 举报

发表于 2009-11-27 23:52:50 | 显示全部楼层

回复 #17 jack970906 的帖子

偶的2600 pro用了两年也不到、工作良好...不知道是好事還是壞事...
卡是藍宝的、08年買入、用了590大元、替換掉原來的7600gs
習慣了用ATI的卡看片、所以無法接受7600gs、外加当時的全硬件加速熱潮就把它帯回家

今年年中入了一片藍宝的4670、用了580元、比原來用的卡還便宜了5元正
接着去試去跑了幾天Folding@Home、效果不太理想、完成一個548級別的工作包也要7至8個小時
之後就有讓它跑Folding了、始終不想讓顯卡長時間生活在重負載的日子中
打遊戲的感覺没有多大、就分辨率提升一個等級吧、看片偶這種大近視是没能力分辨出新舊卡之間兩者的分別了
於是就借了朋友玩一下、但到現在卡還在朋友的家...

顯存的位宽在通用計算的影响、偶的想法是相当於CPU和内存的関係、内存的單通道、双通道等的関係
雖然單通道相比双通道的内存總帶寛少一半、但實際應用時對整個工作效率的影响可能就5至15%左右、平常人很少會留意這種水平上的性能下降、誇張点可能就是電腦多掛一個少掛一個電馿的感覺吧
現時售賣的5XXX系的卡用的顯存都是GDDR5、總帶寛和同頻GDDR3比較也是倍翻的
位宽128bit的GDDR5的總帶寛和位宽256bit的GDDR3的總帶寛是相同的、雖然GDDR5讀寫延遲較GDDR3的大、實際上的差別不算很明顯呢
想了一下、問題還是最初的当程式運算時、到底有没有依重顯卡的顯存
如果經常要調用顯存中的東西、那顯存總帶寛(顯存位寛X顯存工作頻率)的多少的影响就會很明顯、反之、影响就不會明顯了
如果單從Folding@Home的情况來估計、顯存總帶寛的多少對計算的工作效率的影响是十分地少
不過對BOINC的通用計算的項目來看就不好説、如楼上有人説出某個項目需求400多MB的顯存來看、某些項目可能會出現對顯存總帶寛依重的情况出現
不是因為要求容量大的問題、只是因為要求容量大、載的數據也自然多、然後預計該項目顯存中的讀寫次數也較多這樣子
回复

使用道具 举报

 楼主| 发表于 2009-11-28 08:31:24 | 显示全部楼层

回复 #19 Rouble 的帖子

不错,买2600XT主要还是看重它的全硬件解码,不过现在还是软件解码的多。只是从那时开始就一直用3A平台了。
回复

使用道具 举报

发表于 2009-11-28 16:44:49 | 显示全部楼层
去年560买了块同德缩水3850,显存只有256M,感觉collatz conjecture和milkyway@home都跑得很欢。
回复

使用道具 举报

发表于 2009-11-29 14:23:20 | 显示全部楼层

回复 #21 Schumacher 的帖子

3850賣上千元也不是很遥遠的事情?

這兩天偶試了一下調節顯存的工作頻率來算collatz conjecture、收集了偶的2600的一点点数據
想和大家分享一下

這個是這卡的基本功能:

Device 0: ATI Radeon HD2600 (RV630) 256 MB local RAM (remote 64 MB cached + 512 MB uncached)
GPU core clock: 600 MHz, memory clock: 300 MHz(這里報錯的、實際工作時還是600MHz)
120 shader units organized in 3 SIMDs with 8 VLIW units (5-issue), wavefront size 32 threads
not supporting double precision

這個是計算Collatz Conjecture時對顯存的利用的一些訊息:

Initializing lookup table (16384 kB) ... done
Starting WU on GPU 0
Copy lookup table to GPU memory (16384 kB)
Initialize step array on GPU (64 MB)

這里是核芯600、顯存600的工作情况:

該次計算中總共所需要的工作時間
Run time 8716.234375秒
CPU time 8711秒

核芯的理論計算能力約為144GFLOPS(峰値)
顯存的總帶寛約為19GB/s


這里是核芯780、顯存780的工作情况:

該次計算中總共所需要的工作時間
Run time 6850.34375秒
CPU time 6847.703秒

核芯的理論計算能力約為187GFLOPS(峰値)
顯存的總帶寛約為24.7GB/s


這里是核芯780、顯存600的工作情况:

該次計算中總共所需要的工作時間
Run time 6940.84375秒
CPU time 6939.203秒

核芯的理論計算能力約為187GFLOPS(峰値)
顯存的總帶寛約為19.7GB/s

這里是核芯780、顯存300的工作情况:

該兩次計算中總共所需要的工作時間
Run time 7283.265625秒
CPU time 7479.563秒
Run time 7725.859375秒
CPU time 7723.688秒

核芯的理論計算能力約為187GFLOPS(峰値)
顯存的總帶寛約為9.5GB/s


對比一下144GLFOPS和187GFLOPS計算能力和所需工作時間的関係
Collatz Conjecture的工作效率與理論計算性能大約是綫性関係

印象中当187GFLOPS計算能力、分別寛24.7GB/s及19.7GB/s的顯存的總帶寛組合時
以69xx秒左右的工作時間作對比下、所相差的工作時間是少於1分鐘、完全没有察覺慢了下來

187GFLOPS計算能力、分別與24.7GB/s及9.5GB/s的顯存的總帶寛組合作比較時
總帶寛下降2.6倍的情况下、工作效率大約能保持原有的91%、偶用兩次的工作時間相加除2的平均値作比較

评分

参与人数 1基本分 +15 收起 理由
cicikml + 15 原创内容,值得鼓励!

查看全部评分

回复

使用道具 举报

发表于 2009-12-2 17:43:14 | 显示全部楼层
請問楼主一下、最後有没有把新卡帶回家呢?
偶想參考一下你的使用状况
因為偶也打算遲些日子手入一片5750或者5770
快則聖誕節時、遲則明年一月時再觀望一下價格才手入
用來接替現在這片還没被操壞的2600(等偶買了新卡回來、一定要把舊卡操死去活來! )
借朋友的4670應該無法抓回來、只好死心了...
原本打算手入的是功耗較低5670
可惜的是剛剛従其它硬件站的朋友發放所得知的消息...

Redwood的規格
400 SPU/20 TMU/16 ROP
775 MHz core
128-bit/1 GB GDDR5
1000 MHz memory

哎...説真的、有点失望...
打遊戲還是可以、用來算科學計算就有点兒浪費金錢的感覺
如果能650元開賣的偶就支持它一下吧!
不過偶估計最少賣個700元一片卡...

過兩天先去準備一個新電源
就是這樣子
回复

使用道具 举报

发表于 2009-12-2 18:10:09 | 显示全部楼层


texture fillrate 神了。。
回复

使用道具 举报

发表于 2009-12-2 18:55:50 | 显示全部楼层

回复 #24 BiscuiT 的帖子

除便算了一下Redwood的計算能力就640GFLOPS左右
比4670的480GFLOPS只快了33%左右...哎

還有想向你請教一下有関你之前説過模擬双精度運算到底是怎麼的一回事呢?
請問能講解一下嗎?
回复

使用道具 举报

发表于 2009-12-2 19:06:06 | 显示全部楼层

回复 #25 Rouble 的帖子

400sp 比 320sp 才多多少。。

使用单精度FP32单元模拟FP64计算,因为没有FP64专用运算单元,硬件上是合并了两个32位寄存器作为64位用,这就需要多耗费一些时间。
回复

使用道具 举报

发表于 2009-12-2 19:34:15 | 显示全部楼层

回复 #26 BiscuiT 的帖子

哦,貌似 Cypress 也是这么模拟双精度的。。看来说不支持就是不能模拟了。。
回复

使用道具 举报

发表于 2009-12-2 19:40:34 | 显示全部楼层

回复 #26 BiscuiT 的帖子

實際上能是辧的到嗎?
有没有一些實際應用的例子講述一下呢?
請問這関係着哪一方面的軟件層的操作工作呢?是driver、directx、brook+、還是其它東西?
有点緊張...
回复

使用道具 举报

发表于 2009-12-2 19:44:51 | 显示全部楼层

回复 #27 BiscuiT 的帖子

是這樣子...偶没留意到ATI的核芯是這様達成双精運算呢
回复

使用道具 举报

发表于 2009-12-2 19:59:07 | 显示全部楼层
啊、一組矢量單元算一筆FP64指令
双精度計算是單精度計算1/5呀
偶忙記了什麼呢?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-9-23 20:25

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表