找回密码
 新注册用户
搜索
楼主: ONLY

近一周来折腾Gentoo Linux的一点点成果~~~

  [复制链接]
 楼主| 发表于 2012-9-7 17:34:12 | 显示全部楼层
还有test4:

3213.test4.rar (3.93 MB, 下载次数: 1713)
回复

使用道具 举报

发表于 2012-9-7 17:36:58 | 显示全部楼层
本帖最后由 cuda 于 2012-9-7 20:32 编辑

回复 44# ONLY

test3可以打开睿频了,下面将测试一下性能。
不过intel Enhanced SpeedStep和Intel Penrium 4 clock modulation建议不要选上。
前者已经标注为deprecated了,后者似乎是降低频率用的,因为p4不支持睿频。
  1. pkg core CPU   %c0   GHz  TSC   %c1    %c3    %c6   %pc3   %pc6
  2.              100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  3.    0   0   0 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  4.    0   0  12 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  5.    0   1   2 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  6.    0   1  14 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  7.    0   2   4 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  8.    0   2  16 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  9.    0   8   6 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  10.    0   8  18 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  11.    0   9   8 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  12.    0   9  20 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  13.    0  10  10 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  14.    0  10  22 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  15.    1   0   1 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  16.    1   0  13 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  17.    1   1   3 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  18.    1   1  15 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  19.    1   2   5 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  20.    1   2  17 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  21.    1   8   7 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  22.    1   8  19 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  23.    1   9   9 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  24.    1   9  21 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  25.    1  10  11 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
  26.    1  10  23 100.00 2.53 2.40   0.00   0.00   0.00   0.00   0.00
复制代码
回复

使用道具 举报

发表于 2012-9-7 20:19:53 | 显示全部楼层
拿一个6901进行了测试,我原来的3.2.9内核TPF=16m10s,而新内核TPF=16m18s,似乎性能反而有所下降。
两者DLB都开了,都装了thekraken。BFS内核的rr_interval已经设置为300。
发现BFS内核有个问题就是rr_interval设置成300以后DLB非常难打开。我是采用先把这个值改小,等DLB激活后再改大的方法,这样才能使用DLB。
还有一个问题就是rr_interval设置300以后,用户交互会比较迟钝,turbostat的显示也会有问题。
不过我测试的机器是双路5645。E5上的结果不知道会不会发生变化,金版有时间的话可以测试一下。

跑分效能如何?
ONLY 发表于 2012-9-7 16:35
回复

使用道具 举报

发表于 2012-9-7 23:22:06 | 显示全部楼层
机器放在办公室,空了去试试神医测试内核
回复

使用道具 举报

发表于 2012-9-8 12:37:47 | 显示全部楼层
本帖最后由 金鹏 于 2012-9-8 13:54 编辑

回复 46# ONLY
回复 48# cuda

可以正常计算并打开睿频和DLB,但是效能不如CUDA兄弟的3.2.9内核,平均慢了10S
SYS开始占用1%,计算一段时间后在7%上下波动,
  1. CUDA核心3.2.9,手动开启计算

  2. [16:10:30] Project: 8101 (Run 8, Clone 10, Gen 47)
  3. [16:10:30]
  4. [16:10:30] Assembly optimizations on if available.
  5. [16:10:30] Entering M.D.
  6. [16:10:37] Mapping NT from 32 to 32
  7. [16:10:40] Completed 0 out of 250000 steps  (0%)
  8. [16:27:02] Completed 2500 out of 250000 steps  (1%)
  9. [16:43:00] Completed 5000 out of 250000 steps  (2%)
  10. [16:58:59] Completed 7500 out of 250000 steps  (3%)
  11. [17:14:57] Completed 10000 out of 250000 steps  (4%)
  12. [17:30:55] Completed 12500 out of 250000 steps  (5%)
  13. [17:46:53] Completed 15000 out of 250000 steps  (6%)
  14. [18:02:51] Completed 17500 out of 250000 steps  (7%)
  15. [18:18:50] Completed 20000 out of 250000 steps  (8%)

  16. [00:57:45] Completed 82500 out of 250000 steps  (33%)
  17. [01:13:41] Completed 85000 out of 250000 steps  (34%)
  18. [01:29:37] Completed 87500 out of 250000 steps  (35%)
  19. [01:45:34] Completed 90000 out of 250000 steps  (36%)
  20. [02:01:31] Completed 92500 out of 250000 steps  (37%)
  21. [02:14:10] ***** Got a SIGTERM signal (15)



  22. 神医3.5.3内核,手动开启计算

  23. [02:57:59] Project: 8101 (Run 8, Clone 10, Gen 47)
  24. [02:57:59]
  25. [02:57:59] Assembly optimizations on if available.
  26. [02:57:59] Entering M.D.
  27. [02:58:05] Using Gromacs checkpoints
  28. [02:58:07] Mapping NT from 32 to 32
  29. [02:58:36] Resuming from checkpoint
  30. [02:58:38] Verified work/wudata_07.log
  31. [02:58:40] Verified work/wudata_07.trr
  32. [02:58:41] Verified work/wudata_07.xtc
  33. [02:58:41] Verified work/wudata_07.edr
  34. [02:58:42] Completed 94665 out of 250000 steps  (37%)
  35. [03:01:18] Completed 95000 out of 250000 steps  (38%)
  36. [03:17:45] Completed 97500 out of 250000 steps  (39%)
  37. [03:34:12] Completed 100000 out of 250000 steps  (40%)


  38. 神医3.5.3内核,WEB开启计算
  39. [03:39:13] Project: 8101 (Run 8, Clone 10, Gen 47)
  40. [03:39:13]
  41. [03:39:13] Entering M.D.
  42. [03:39:19] Using Gromacs checkpoints
  43. [03:39:21] Mapping NT from 32 to 32
  44. [03:39:50] Resuming from checkpoint
  45. [03:39:51] Verified work/wudata_07.log
  46. [03:39:53] Verified work/wudata_07.trr
  47. [03:39:54] Verified work/wudata_07.xtc
  48. [03:39:54] Verified work/wudata_07.edr
  49. [03:39:54] Completed 99115 out of 250000 steps  (39%)
  50. [03:46:01] Completed 100000 out of 250000 steps  (40%)
  51. [04:02:07] Completed 102500 out of 250000 steps  (41%)
  52. [04:18:11] Completed 105000 out of 250000 steps  (42%)
  53. [04:34:18] Completed 107500 out of 250000 steps  (43%)

  54. CUDA核心3.2.9,WEb开启计算

  55. [04:41:57] Project: 8101 (Run 8, Clone 10, Gen 47)
  56. [04:41:57]
  57. [04:41:57] Assembly optimizations on if available.
  58. [04:41:57] Entering M.D.
  59. [04:42:03] Using Gromacs checkpoints
  60. [04:42:05] Mapping NT from 32 to 32
  61. [04:42:29] Resuming from checkpoint
  62. [04:42:29] Verified work/wudata_07.log
  63. [04:42:30] Verified work/wudata_07.trr
  64. [04:42:30] Verified work/wudata_07.xtc
  65. [04:42:30] Verified work/wudata_07.edr
  66. [04:42:30] Completed 108370 out of 250000 steps  (43%)
  67. [04:53:17] Completed 110000 out of 250000 steps  (44%)
  68. [05:09:13] Completed 112500 out of 250000 steps  (45%)
  69. [05:25:07] Completed 115000 out of 250000 steps  (46%)
  70. [05:41:01] Completed 117500 out of 250000 steps  (47%)
复制代码
回复

使用道具 举报

发表于 2012-9-8 14:03:02 | 显示全部楼层
回复 50# 金鹏

测试辛苦了。
现在发现top中的sy占用高低和性能没有什么直接联系,我已经可以把它降低到0.0%了,但是性能完全没有提升。
此外BFS补丁似乎也是负的作用,我曾经试过给3.2.9内核打上BFS补丁,但是结果性能也是反而下降了。
回复

使用道具 举报

发表于 2012-9-8 14:19:25 | 显示全部楼层
本帖最后由 金鹏 于 2012-9-8 14:21 编辑

回复 51# cuda

我觉得SYS占用和计算效率有关联,SYS高于10%时PPD下降厉害,过度低PPD也下降厉害,似乎取得一个最佳平衡点才是优化的目标

觉得兄弟的3.2.9优化的很好,可以把经验分享给神医借鉴
回复

使用道具 举报

发表于 2012-9-8 14:44:35 | 显示全部楼层
本帖最后由 cuda 于 2012-9-8 15:00 编辑

回复 52# 金鹏

我的其实基本上也都是默认参数,我估计这个10秒差距主要来自BFS的副作用,此外不同版本的内核效率也会带来细微差别。
关于BFS,其实从原理上来讲应该是能提升性能的,我之前对其也抱有很大希望,但是不知道为什么实际效果不好。
BFS内核带来的rr_interval参数不错,如设置为比较大的值可以提升一些性能,但还是比非BFS的普通内核差。
回复

使用道具 举报

发表于 2012-9-9 12:23:07 | 显示全部楼层
回复 53# cuda


  是不是还有其他因素没考虑进来影响了提升?
回复

使用道具 举报

 楼主| 发表于 2012-9-10 09:21:24 | 显示全部楼层
Test第5版:

3213.test5.rar (3.53 MB, 下载次数: 1711)

未打BFS补丁~~~
回复

使用道具 举报

发表于 2012-9-10 09:51:46 | 显示全部楼层
神医 在琢磨 LFS? 这个我以前编译了很久没有成功的 也是Gentoo
回复

使用道具 举报

发表于 2012-9-10 10:12:59 | 显示全部楼层
整好了大家都跑
回复

使用道具 举报

发表于 2012-9-10 11:58:28 | 显示全部楼层
本帖最后由 cuda 于 2012-9-10 14:54 编辑

回复 55# ONLY

测过了,双5645上6901的TPF达到15m53s,比我原先的3.2.9快了10几秒。估计是AVX的功效?
金版的双路E5建议也试试,我看看正在测试的4P 4650有没有可能也试一下,用来突破百万PPD。
update: 4650上测试过了,TPF和3.2.9持平,没有改善。
update2: 刚才用原先的3.2.9内核再测了一下,结果6901的TPF也是15:53,两个内核成绩完全相同。看来这10几秒的提升是其他原因造成的。。

[03:18:00] Project: 6901 (Run XX, Clone XX, Gen XXX)
[03:18:00]
[03:18:00] Assembly optimizations on if available.
[03:18:00] Entering M.D.
[03:18:06] Using Gromacs checkpoints
[03:18:08] Mapping NT from 24 to 24
[03:18:31] Resuming from checkpoint
[03:18:33] Verified work/wudata_02.log
[03:18:33] Verified work/wudata_02.trr
[03:18:34] Verified work/wudata_02.xtc
[03:18:34] Verified work/wudata_02.edr
[03:18:35] Completed 48645 out of 250000 steps  (19%)
[03:27:21] Completed 50000 out of 250000 steps  (20%)
[03:43:14] Completed 52500 out of 250000 steps  (21%)
[03:59:07] Completed 55000 out of 250000 steps  (22%)
回复

使用道具 举报

发表于 2012-9-10 13:14:38 | 显示全部楼层
刚才在4P 4650上试过了,性能却没有提高。看来1M PPD还要等等了。
回复

使用道具 举报

 楼主| 发表于 2012-9-10 13:32:09 | 显示全部楼层
刚才在4P 4650上试过了,性能却没有提高。看来1M PPD还要等等了。
cuda 发表于 2012-9-10 13:14


有没有加上thekraken?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-9-28 01:07

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表