|
本帖最后由 金鹏 于 2013-12-16 14:29 编辑
引言--bigadv move to 16+ cores as previously announced
by kasson » Mon Jul 30, 2012 6:03 pm
We announced at the beginning of the year that the bigadv program would be moving to clients with 16+ cores. At this point, we are only serving 16+ BA work units. We do continue to evaluate the program and may make changes (in either direction) in the future as both the scientific work we are doing and the capabilities of donor machines continue to change.
Thanks for folding!
由于斯坦福宣布BIGADV全面升级到BA16时代
BA包目前分为余量不多的BA8包:6901 和 BA12包:6903、6904,此两类包需要具有12T/12C的机器才能接到 ,过几天也许就木有了 ;
主力BA16包:8101/8102 /8103/8104/8105需要具有16T/16C及以上的机器才能接到。
(随着690X包彻底下线,目前BA16主力包8102、8103、8104、8105包都能被4.1G+的12T处理器机器(包括主频低于2.9G的双路24T的Nehalem架构机器)按时跑完即使是8101包也能被超频到4.5G的SNB-E 12T处理器跑完,注:如果你的U跑CINEBENCH -R11.5能有11分+或者CINEBENCH _R15能有1000+分就能跑完8102-8105包)
而运行此类BA包又以原生LINUX或者虚拟机下的LINUX系统下计算效率最高,获得的得分最高,所以本文主要围绕如何接到BA16展开(跑BA包的缺点就是需要机器7*24不停机计算)。
随着3213的日益强大,拥有林林总总各类机器,有些是12T/12c的高端台机跑着SMP2,有些是16T/16/C/24T的低主频双路机(比如主频低于2.9G的双路24T的Nehalem架构机器)因为不能按时完成8101也跑着SMP2或者V7,造成了算力和应得PPD不成比例的囧惑,
如果你的机器主频超的足够高(比如超频到4.5G的SNB-E台机)可以尝试下面方法获取BA16包,但是前提必须要在规定奖励期限内完成并上传后才有奖励分,如果不能完成还是老老实实跑V6&V7下的SMP2包
下面根据各位高手总结的经验汇总了一些提升PPD的技巧与有需要的兄弟分享:
一、神医涡轮增压大法:适用于超频后的12T/12C台机模拟16T后能够接到BA16包
适合原生LINUX_1.3.4镜像和WIN系统下虚拟机VirtualBox_1.4.1镜像模拟16T(对于其他LINUX系统下安装FAH客户端的下的,可按照此思路,自己摸索模拟16T)
拷贝
stat.16.txt
(9.17 KB, 下载次数: 8468)
文件到FAH共享目录下,在LINUX运行界面或者虚拟机运行界面内~#提示符后输入- cp /usr/local/fah/stat.16.txt /tmp/stat.save
复制代码 后回车,修改系统配置文件,使得无需每次重启都要手动加载伪装文件:
在~#提示符的后面输入下面的命令后回车:使用箭头键,将光标移到“Starting FAH Client......”下面的“cd $FPATH”的最后面,
然后按A键,再敲回车,增加一条空行~~~
在这条空行中输入下面的内容(此处为两行,非一行):- mount --bind /tmp/stat.save /proc/stat
- sleep 15
复制代码 上面命令在一些情况下会失败,比如当你使用Ramdisk或live版Linux的时候。
此时可以改用:- mount --bind -o loop /tmp/stat.save /proc/stat
- sleep 15
复制代码 输入完毕,键盘盲打:ESC键、冒号键、W键、Q键,回车存盘后退出vi。
使用WEB configuration控制(勾好SMP Auto-Startup Enable Bigadv 选项,根据机器CPU的架构选择对应的运算Kernel核心,切记勾选Packet Size选项为Big)勾选Reboot on Submit选项 按Submit按钮 重启机器或者虚拟机,在当前包计算完毕后客户端会自动接收BA16的包,使你的及其获得最大限度的PPD得分。 二、 CUDA涡轮增压大法:适用于超频后的12T/12C台机模拟16T后能够接到BA16包
适合WIN系统下虚拟机VirtualBox_1.5.0镜像模拟16T
在虚拟机界面~#提示符的后面输入下面的命令:- echo 0-15 > /tmp/stat.save
复制代码 后再使用使用箭头键,将光标移到“Starting FAH Client......”下面的“cd $FPATH”的最后面,
然后按A键,再敲回车,增加一条空行~~~
在这条空行中输入下面的内容(此处为两行,非一行):- mount --bind /tmp/stat.save /sys/devices/system/cpu/online
- sleep 15
复制代码 上面命令在一些情况下会失败,比如当你使用Ramdisk或live版Linux的时候。
此时可以改用:- mount --bind -o loop /tmp/stat.save /sys/devices/system/cpu/online
- sleep 15
复制代码 输入完毕,键盘盲打:ESC键、冒号键、W键、Q键,回车存盘后退出vi。
使用WEB configuration控制(勾好SMP Auto-Startup Enable Bigadv 选项,根据机器CPU的架构选择对应的运算Kernel核心,切记勾选Packet Size选项为Big)勾选Reboot on Submit选项 按Submit按钮 重启虚拟机,在当前包计算完毕后客户端会自动接收BA16的包,使你的及其获得最大限度的PPD得分。 三、 thekraken插件的安装:()适用于跑A5内核的BA包)
这个东东是双路及以上机器必须的,特别适用于推土机平台,能提升多核心计算效率提高开启DLB(dynamic load balancing)几率,最大限度榨干机器性能
对于神医原生1.3.4镜像或者VBVirtualBox_1.4.1镜像下的客户端需要先下载thekraken-0.6-x86_64-0.rar或者CUDA兄弟编译过的新版thekraken-0.7-pre15.rar 到本地硬盘后解压缩,
然后把解压缩后的6个文件复制到FAH共享目录内(对于使用其他LINUX系统的可直接下载解压缩文件到FAH安装目录下)
VirtualBox_1.5.0镜像由于内置了thekraken-0.7-pre15插件安装文件可省略上面步骤,直接进行下面操作
必须先停掉FAH计算(可在WEB 控制页面的管理员选项页面按 stop floding 按钮)后进行下面步骤:
在~#提示符的后面输入下面的命令后回车:
安装thekraken-0.6:- cp /usr/local/fah/thekraken /usr/bin/
复制代码 让thekraken并随FAH客户端开启同时启动:输入下面命令后回车- /usr/bin/thekraken -c autorestart=1 -i
复制代码 看到下图界面,说明 thekraken插件的安装成功
升级到thekraken-0.7:
卸载:如果从thekraken——0.6版升级到0.7版必须先卸载0.6版本输入后回车thekraken-0.7-pre15.rar 解压缩后的6个文件复制到FAH共享目录内,
全新安装安装0.7版本- cp /usr/local/fah/thekraken /usr/bin/
复制代码 输入后回车看到下面界面安装0.7插件成功
四、 VirtualBox虚拟机的设置技巧
由于VB本身缺陷,带有HT的16T及以上双路机器在WIN下运行VB时只能使用到85%左右的CPU资源,适合那些运行在WIN下需要留出一定比例CPU资源运行其他程序的双路及以上机器使用,
比如4P 4830需要留出32T给其他程序运行,那么可以设置VB的处理器为32T(貌似记得最多支持32T),那么VB跑FAH满载时正好占用宿主机64T的40%资源,等等
24T及以上机器你也可以采用maxzong兄弟的关闭HT运行真实物理核心数的办法,比起开启HT落后5-10%的性能。 五、
A: 神医睿频大法 ,适用于解决神医1.3.4镜像(核心3.0.0)下无法开启E5的turbo 2.0的问题
(由于神医对此内核进行了附带程序精简,网络状态不理想的机器可能会偶尔出现不能上传计算结果的问题).
首先下载神医基于最新的kernel 3.5.4及GCC 4.7.1编译的 kernel_3.5.rar
kernel_3.5.rar
(2.85 MB, 下载次数: 10486)
后,将解压缩出的 kernel_3.5.4_bfs文件复制到FAH共享目录下:然后在~#提示符的后面输入下面的命令后回车(注意:此时必须在非CORE2选项启动的机器,否则无法替换文件):- cp /usr/local/fah/kernel_3.5.4_bfs /boot/linux-3.0.0-core2
- lilo
复制代码 然后使用WEB configuration控制(勾好选择对应的运算Kernel核心为 Core 2 ,勾选Reboot on Submit选项 按Submit按钮 重启机器,
开启机器后LILO里会自动从Core 2选项启动FAH客户端,屏幕显示linux FAH 3.5.4-gentoo核心程序,并且完美开启了Turbo 2.0进行ALL-CORE睿频运算,效率比较高
B: CUDA睿频大法:,适用于解决神医1.3.4镜像(核心3.0.0)下无法开启E5的turbo 2.0的问题
(此内核稳定性和兼容性好,推荐使用)
首先下载CUDA兄弟根据双路E5平台编译过的Kernel-3.2.9文件,为了简便操作我已经重命名为
linux-3.0.0-amd
(4.67 MB, 下载次数: 10023)
,(此为Lynt兄弟的鸟占雀巢替换法)下载后拷贝到FAH共享目录内,
然后在~#提示符的后面输入下面的命令后回车(注意:此时必须在非AMD选项启动的机器,否则无法替换文件):- cp /usr/local/fah/linux-3.0.0-amd /boot/
- lilo
复制代码 使用WEB configuration控制(勾好选择对应的运算Kernel核心为 AMD ,勾选Reboot on Submit选项 按Submit按钮 重启机器,
开启机器后LILO里会自动从AMD选项启动FAH客户端,屏幕显示linux 3.2.9-2012-tc(tty1)核心,实际使用的是CUDA兄弟的3.2.9核心程序,并且完美开启了Turbo 2.0进行ALL-CORE睿频运算
~#提示符的后面输入下面的命令后回车可以查看当前核心版本
使用I7Z或者turbostat查看睿频频率:
下载
i7z
(59.34 KB, 下载次数: 9530)
或者
turbostat
(19.02 KB, 下载次数: 8786)
到FAH共享目录下,
在~#提示符的后面输入或者回车运行,就能看到是否开启了睿频运行
C: CUDA的TC大法,适用于解决神医1.3.4镜像和其他LINUX系统下无法使Bulldozer架构处理器满载TC的问题
使用tpc-0.43破除主板功耗保护,使之完美运行在ALL-CORE的TC频率上,让推土机的强大性能得以充分发挥!
用tpc破除推土机TC限制非常简单,只需要以下一条命令- TurionPowerControl -psmax 1
复制代码 回车执行过命令之后,性能立刻大幅提升
4p Opteron 6272测试结果(DLB均已打开):
1. 破除睿频限制之前- p6901: 功耗660瓦, 51度, 真实频率2.26GHz, TPF=06分44秒, PPD 33.8万。
- p6903: 功耗670瓦, 52度, 真实频率2.24GHz, TPF=14分56秒, PPD 45.9万。
- p8101: 功耗670瓦, 53度, 真实频率2.18GHz, TPF=14分12秒, PPD 32.5万。
- p8102: 功耗670瓦, 53度, 真实频率2.20GHz, TPF=10分55秒, PPD 48.2万。
复制代码 2. 破除睿频限制之后- p6901: 功耗740瓦, 56度, 真实频率2.40GHz, TPF=06分18秒, PPD 37.4万。
- p6903: 功耗750瓦, 56度, 真实频率2.40GHz, TPF=13分56秒, PPD 51.0万。
- p8101: 功耗780瓦, 57度, 真实频率2.40GHz, TPF=12分48秒, PPD 37.9万。
- p8102: 功耗770瓦, 57度, 真实频率2.40GHz, TPF=09分58秒, PPD 55.2万。
复制代码 七: CUDA牌DLB(dynamic load balancing)激活插件
DLB是SMP/BA包中使用到的一种并行计算的优化技术,根据包的不同,DLB on比DLB off可以提升3-10%的PPD。
但是DLB只能自动激活,不受参数控制,如果碰巧DLB没被激活,就会白白造成PPD的损失。
首先下载 cpubusy-0.2.rar ,按照下面方法操作:
cpubusy使用方法:
如果发现当前运行的包没有激活DLB,那么:
1、中止所有FAH进程
2、运行cpubusy,语法为:注:其中N通常取CPU线程数的一半
3、重新启动FAH进程
4、等待几分钟,然后观察DLB是否开启,如果开启了就可以人工关闭cpubusy,或者等待5分钟后cpubusy自动关闭。
人工关闭cpubusy的命令是:注意,cpubusy提升DLB几率的原理是和fah程序抢占CPU。如果因为某些bug 5分钟后cpubusy没有自动关闭,那么必须人工关闭,否则会严重影响PPD。
此外,目前的版本因为需要人工干预,不大适合频繁使用,只适合测试用途。将来可考虑改进为自动版本。
暂时能想到的就这么,其他兄弟还有什么提升PPD和运算效率的技巧可以一并发帖上来分享
|
评分
-
查看全部评分
|