找回密码
 新注册用户
搜索
楼主: baibaipangpang

[讨论] 怎么解决 UNSTABLE_MACHINE

[复制链接]
发表于 2009-4-28 18:56:29 | 显示全部楼层
真是复杂啊。

建议不要着急,每一块卡测试一个星期,把槽位、电源、主板的各种可能性都分别排除了,再考虑混插。

F@H的计算程序肯定不成熟,在这种条件下,要么照搬老外地那个23块卡配置,要么还是单机、单卡运行吧。
回复

使用道具 举报

 楼主| 发表于 2009-4-29 07:51:23 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-28 18:45 发表



将610w的电源(曾经带单卡跑了1周很稳定),接到第一张显卡,gpo0.gpu1没有报错,但第二张、第三张显卡 各有一个进程报错!

目前将将610w的电源接到第三张显卡,观察中 。

难道是电源的 问题 ,又是tt的 电源惹的祸?! ...

完全混乱了

在再次变更电源连接位置后,竟然发生问题的核心没有变化!

看来电源排错法失败了。
回复

使用道具 举报

发表于 2009-4-29 08:01:33 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-29 07:51 发表

完全混乱了

在再次变更电源连接位置后,竟然发生问题的核心没有变化!

看来电源排错法失败了。


加上如图红色部分所示的参数了么?

回复

使用道具 举报

 楼主| 发表于 2009-4-29 08:36:11 | 显示全部楼层
原帖由 金鹏 于 2009-4-29 08:01 发表


加上如图红色部分所示的参数了么?


已经这么做了
回复

使用道具 举报

 楼主| 发表于 2009-4-29 08:41:56 | 显示全部楼层
现有环境变量
1.JPG
回复

使用道具 举报

发表于 2009-4-29 08:49:11 | 显示全部楼层
6核心全开总共占用多少CPU资源?

看了你另外一个帖子,发现出问题的貌似都是分值511的高温毒包?

尝试一下驱动降级到182.08试试看,清除182.50所有驱动痕迹后安装182.08

下载地址: http://drivers.mydrivers.com/dow ... L-For-WinXP-XP-MCE/

[ 本帖最后由 金鹏 于 2009-4-29 09:02 编辑 ]
回复

使用道具 举报

 楼主| 发表于 2009-4-29 09:29:59 | 显示全部楼层
原帖由 金鹏 于 2009-4-29 08:49 发表
6核心全开总共占用多少CPU资源?

看了你另外一个帖子,发现出问题的貌似都是分值511的高温毒包?

尝试一下驱动降级到182.08试试看,清除182.50所有驱动痕迹后安装182.08

下载地址: http://drivers.mydrivers.com/download/ ...

实际上是384 353 1888包都有
回复

使用道具 举报

发表于 2009-4-29 09:36:03 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-29 09:29 发表

实际上是384 353 1888包都有



降级驱动用182.08吧

兄弟的RP不会是和我一样问题出在780I主板上吧

我那780I主板返修快半个月了,郁闷啊

[ 本帖最后由 金鹏 于 2009-4-29 09:39 编辑 ]
回复

使用道具 举报

 楼主| 发表于 2009-4-29 09:41:56 | 显示全部楼层
原帖由 金鹏 于 2009-4-29 09:36 发表



降级驱动用182.08吧

兄弟的RP不会是和我一样问题出在780I主板上吧

我那780I主板返修快半个月了,郁闷啊

你主板损坏的表现是什么?
回复

使用道具 举报

发表于 2009-4-29 09:45:58 | 显示全部楼层
MCP温度120度
运行一段时间后多显卡即使默认频率下也会出现死机,包括死机后重启后也会出现,

要等主板冷却下来才行,出现的几率没有规律,和你的FAH运算出错表象完全不一样
回复

使用道具 举报

 楼主| 发表于 2009-4-29 10:21:26 | 显示全部楼层
原帖由 金鹏 于 2009-4-29 09:45 发表
MCP温度120度
运行一段时间后多显卡即使默认频率下也会出现死机,包括死机后重启后也会出现,

要等主板冷却下来才行,出现的几率没有规律,和你的FAH运算出错表象完全不一样 ...

我的电脑今天出现了BAD_POOL_?

所以我现在换了内存,再观察下
回复

使用道具 举报

发表于 2009-4-29 12:16:59 | 显示全部楼层
多卡运算问题多多 太折腾人 最后只能放弃了
回复

使用道具 举报

 楼主| 发表于 2009-4-29 13:01:55 | 显示全部楼层
原帖由 vennyfan 于 2009-4-29 12:16 发表
多卡运算问题多多 太折腾人 最后只能放弃了




我们只需要有一个人完成了多gpu运算设备的搭建,后来者就会轻松很多的。
回复

使用道具 举报

 楼主| 发表于 2009-4-29 13:09:24 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-29 10:21 发表

我的电脑今天出现了BAD_POOL_?

所以我现在换了内存,再观察下



更换内存后,运算比以前稳定了很多,

故障率由2/6下降到1/6,并且是运算了2个小时后才有1个核心出错.
回复

使用道具 举报

 楼主| 发表于 2009-4-29 16:15:25 | 显示全部楼层
恩   现在又有2个核心频繁出错了
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2025-5-14 10:35

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表