找回密码
 新注册用户
搜索
查看: 5260|回复: 11

自己来做个广告吧,这个将有助于你了解Kepler……

[复制链接]
头像被屏蔽
发表于 2012-4-27 11:28:46 | 显示全部楼层 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2012-4-27 21:23:34 | 显示全部楼层
已阅,请各位传阅
回复

使用道具 举报

发表于 2012-5-6 01:43:55 | 显示全部楼层
本帖最后由 CCCP0081 于 2012-5-6 01:45 编辑

单从文章架构上看都已经相当好了,前世今生、超远见计划中的一小步、黑科技、光这些看点都已经让人浮想联翩了。再加上对技术细节的深入解读,楼主的功力深不可测。真是相当好的文章。决定加入楼主的粉丝团,哈哈
回复

使用道具 举报

发表于 2012-5-6 02:14:28 | 显示全部楼层
Echelon系統的結構草圖才是全帖最恐怖的核爆點:
ceGOck52IJtlA.jpg


橙色的區塊是處理器晶片
晶片本身加上外邊的DRAM等記憶體組成了一個運算節點(紫色)
多達8個節點組成一個運算模組(黃圈)[應該是指機櫃裡的機]
多達15個模組成為一個機櫃(藍圈)
恐怖之處在於機櫃內部模組之間的連接是直接連入到每張卡上晶片內的NIC(他是這樣畫的,但和機內卡間互連的SLI不同,這次是機間,不知現有的產品是不是都這樣)
而要知道的是現在晶片內的資料吞吐量和頻寬比外部的(例如PCI-E)都要大得多
所以如果真是這樣大規模的晶片直接互連,性能提升可不平凡.......

PS:把圖減省到單機層面來看的話(一個黃圈),我覺得Nvidia恐怕就會提出8路SLI的
  似乎出了4路SLI之後遲遲都不推出8路SLI,可能就是因為以當時複雜而沉重的scheduling模組組建8way-SLI,會嚴重拖低性能
  現在簡化排程過程後,SLI的上限不知能不能打個翻
  但是這下子不論SLI規模上限有多大,又或是用家組不組SLI
  恐怕瓶頸就落在CPU和GPU之間的運接頻寬和溝通方式上去吧~(不知現行的介面足不足夠應付?)
回复

使用道具 举报

发表于 2012-5-6 02:26:18 | 显示全部楼层
順便多說一句:
之前看過一個帖,說AMD想用CPU輔助GPU進行資料預讀
樓主所說Echelon內類似ARM的處理器是不是可以做到同樣的功能?
如果可以的話,這個同時簡化排程,降低功耗,輔助運算和預讀的架構重組也太恐怖了吧~

壇上有人說過X86和CELL就好比馬和驢
怎麼老是覺得這個Kepler就是一頭即將演化成驢的馬......
回复

使用道具 举报

发表于 2012-5-6 02:35:11 | 显示全部楼层
http://vga.zol.com.cn/247/2477027_all.html#p2477027

找到你给分布式运算做的广告了。
回复

使用道具 举报

发表于 2012-5-6 03:01:27 | 显示全部楼层
本帖最后由 CCCP0081 于 2012-5-6 03:38 编辑

既然能接触到这么多的显卡,能否有机会做一个关于BOINC性能的显卡排行呢?这个有需求

原来是资深专业编辑及前版主、难怪功力高深到洪七公级。之前斗胆,失敬!失敬!
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2012-5-7 17:54:21 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2012-5-7 17:54:49 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

发表于 2012-5-9 03:57:55 | 显示全部楼层
回复 8# mooncocoon


   查看了一下,似乎AMD大方向都是HSA,但是步驟的先後有點怪
nvidia的方案如你所說,是先在引進通用計算,再加大GPU上並行運算的規模
GPU上到混算的要求後再有計劃地向CPU靠攏,先是unified cache,然後引入ARM

而AMD的腳步有點像迷蹤步,先把CPU,GPU拉到一塊硅晶上去同時用unified memory controller,然後搞通用計算
再來一記共同記憶體尋址......

兩者的背景不同,情況也有點不一樣
NVIDIA本來是GPU起家,現在的自家CPU也是流動平台,和INTEL幾乎各不相干
nvidia把arm拉進來後,我覺得不大可能和當年的IBM一樣,把裡面這CPU零件弄得和桌面級的一樣壯
要不然intel一但不滿,那可會相當麻煩
所以我覺得echelon平台的計劃上CPU應該還是把工作直接扔給GPU
只是排程不再由專門的電路,而是由通用化後的組件(ARM)負責
簡單地說就是在將圖形運算變為通用運算後,進一步把排程運算都變成通用運算,簡化線路易於發展之餘順手把那部分都變成運算力量

而AMD本來就是做CPU,可能硬件製造上比較自信點吧
所以他們的計劃大多是硬件先行,軟件後上
但怪就怪在既然硬件先行又不把改進一做到底
可能之一應該是軟件方面的經驗沒nvidia老到

畢竟nvidia搞GPU本身就要經常搞驅動,而且讓CPU排程的話,改好GPU後就只是把驅動加入調用CPU的部分
偏偏AMD和ATI的軟件方面就好像是內傷(好像是這樣,以前顯示卡的驅動要玩新遊戲要下載pack,而且版本順序好像不太好........)
感覺就是硬件一下了改得差不多卻發現軟件跟不上,只好走個中間步去遷就一下
但nvidia好像是把小改變(不一定是軟件)一點點推出去,爭取時間去嘗試大修改
而且加進去的是ARM,不知他們在甚麼時候開始著手了~(200還是400的年代,還是我想多了......)
回复

使用道具 举报

发表于 2012-5-9 04:03:38 | 显示全部楼层
總括來說n記的ARM應該不會大壯,榭大招風
用來排程之餘最多幫忙預讀一下資料之類的
不要期望ARM會很強,要不然intel可能反臉
但AMD本身搞CPU,沒有nvidia的考慮
反而不把改變做齊,只能說是軟硬不協調,一個拖累一個=="
回复

使用道具 举报

头像被屏蔽
 楼主| 发表于 2012-5-9 10:19:15 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2025-4-20 23:14

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表