找回密码
 新注册用户
搜索
查看: 13041|回复: 35

[讨论] 怎么解决 UNSTABLE_MACHINE

[复制链接]
发表于 2009-4-26 20:00:36 | 显示全部楼层 |阅读模式
在我的设备连续遇到n多次的UNSTABLE_MACHINE 问题后,我在网上发现了某贴的 回复,如下:



“Core 11 is for Nvidia and ATI. Most common cores are 11, 14, and sometimes 13 as well.

NANs could be caused by OC problems, but also sometimes it is just a bad WU. Be sure to records the WU Project info when you get a NAN. If you delete and rerun, it may download the same WU (Project, Run, Clone, Gen) again. It can do this up to 6 times in a row. So after 1 or 2 NANs on a particular WU, just delete it till you get a new one. If it continues, there may be other issues.

Basically... NANs happen....

There will always be some WUs that are just bad. It differs from project to project, but can be as much as 5 to 10 percent of the WUs have issues.

BTW, been seeing more than regular NANs on the 353 point WUs.”

不知道是不是这个原因
回复

使用道具 举报

 楼主| 发表于 2009-4-26 20:06:33 | 显示全部楼层
但是 我在另一个贴看到了以下对话:

”No experience with the 295. I am assuming your temps are good. First, when you deleted and reinstalled, you deleted the work and core files out of the appdata folder, then uninstalled FaH? Installed in a folder other than the Program Files directory?

Also, have you tried uninstalling, cleaning, and then re-install drivers? "
回复

使用道具 举报

 楼主| 发表于 2009-4-26 20:09:23 | 显示全部楼层
基于以上2个帖子,我会想了我的设备安装步骤,发现以下问题:
1.系统是去年的测试系统;
2.原系统的驱动是基于intel主板和ati显卡的;
3.gtx295显卡是逐步加载的。

所以,为了更好的排错,我将在明天彻底格式化硬盘,重新安装整个系统。
回复

使用道具 举报

 楼主| 发表于 2009-4-26 20:21:09 | 显示全部楼层
另外关于以下这个贴:
“As was pointed out earlier, 90% of the time, NAN's are the result of a card being too highly clocked (this can be shaders, memory, or core), or not receiving enough/stable power. “

其中提到了电源问题,我暂时将这个排除,原因是我的电源是由舒康的610W电源和TT的650W电源组成,其中舒康的610W电源只负责一个GTX295显卡、780i主板、单条2g内存、160g硬盘、3个9厘米风扇的供电,而TT的650W电源则负责向另外2个GTX295显卡供电,不论是按照TDP最大耗电量还是按照整机实际耗电量(830W)电源系统还没有达到满负荷。
但是也不能排除电源问题,只是电源问题排查很费劲,需要1500W的电源来排查问题,因此暂时不考虑该问题。
回复

使用道具 举报

发表于 2009-4-26 20:37:31 | 显示全部楼层
你的tt还真不好说,工作时间长热度高,都会影响电源的供电。。。。。。。。。
回复

使用道具 举报

 楼主| 发表于 2009-4-26 20:41:21 | 显示全部楼层
同时还考虑是否为 主板芯片过热的问题,
其实这个因主板而异,比如我用的 nv芯片的主板,温度虽然高,但nv芯片的耐热性能也高。

又由我用的是gtx295公版显卡,我们可以发现,该类型显卡在其风扇及周围位置的温度还是很低的,原因是显卡的风扇在某程度上对主板进行了散热,但在机箱散热条件不好的时候就反而会影响主板的散热。

也是鉴于判断是因主板芯片过热需要其它型号主板来支持,比如说x58,因此暂时不考虑该问题。
回复

使用道具 举报

发表于 2009-4-26 22:02:59 | 显示全部楼层
我现在也在通过改设置试图解决这个问题,98GTX+原频率738/1836/2200,现在改成602/1836/1900,温度从78度下降到74度,PPD下降8%左右,目前运行了12小时无错,继续观察中。
回复

使用道具 举报

 楼主| 发表于 2009-4-26 22:48:17 | 显示全部楼层
原帖由 xixifrank 于 2009-4-26 22:02 发表
我现在也在通过改设置试图解决这个问题,98GTX+原频率738/1836/2200,现在改成602/1836/1900,温度从78度下降到74度,PPD下降8%左右,目前运行了12小时无错,继续观察中。 ...

你的显卡貌似是温度的问题?

[ 本帖最后由 baibaipangpang 于 2009-4-26 22:49 编辑 ]
回复

使用道具 举报

发表于 2009-4-26 23:08:41 | 显示全部楼层
恩,感觉是温度问题,出错集中于75度以上时,70度以下基本不会出错。
回复

使用道具 举报

发表于 2009-4-27 08:40:27 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-26 20:41 发表
同时还考虑是否为 主板芯片过热的问题,
其实这个因主板而异,比如我用的 nv芯片的主板,温度虽然高,但nv芯片的耐热性能也高。

又由我用的是gtx295公版显卡,我们可以发现,该类型显卡在其风扇及周围位置的温度还是很低的,原因 ...


白胖互换一下电源,用610的那个带双卡,用650的带一张卡和主板、CPU、风扇,
看看这样是不是还会出现同样位置的EUE
回复

使用道具 举报

 楼主| 发表于 2009-4-28 17:24:09 | 显示全部楼层
从周日到今天

我尝试了各种单卡

确认有2张卡在计算fah中在1小时左右有反馈UNSTABLE_MACHINE,另外一张295在1小时内没问题。

经典问题来了,

反馈UNSTABLE_MACHINE的芯片是gpu1,这是与前一阶段的测试结果不同的(以前是gpu0),
但如果是主板插3块显卡后gpu的顺序发生变化(这很可能),那这与混插测试结果就是一致的。

而我用版主发的测试工具测试了30分钟,在显卡100%风扇下gpu温度达到89度,显卡没有反馈任何错误或异常!

[ 本帖最后由 baibaipangpang 于 2009-4-28 17:25 编辑 ]
回复

使用道具 举报

 楼主| 发表于 2009-4-28 17:26:27 | 显示全部楼层
原帖由 金鹏 于 2009-4-27 08:40 发表


白胖互换一下电源,用610的那个带双卡,用650的带一张卡和主板、CPU、风扇,
看看这样是不是还会出现同样位置的EUE

电源不支持互换,没有相应的电源接口。
回复

使用道具 举报

 楼主| 发表于 2009-4-28 17:27:00 | 显示全部楼层
我现在严重怀疑是fah程序的问题!
回复

使用道具 举报

 楼主| 发表于 2009-4-28 18:11:28 | 显示全部楼层
原帖由 金鹏 于 2009-4-27 08:40 发表


白胖互换一下电源,用610的那个带双卡,用650的带一张卡和主板、CPU、风扇,
看看这样是不是还会出现同样位置的EUE

我现在将610w的电源(曾经带单卡跑了1周很稳定),依次接到第一张显卡、第二张、第三张,好好观察下,如出问题的gpu序号发生变化,就说明是电源的问题。
回复

使用道具 举报

 楼主| 发表于 2009-4-28 18:45:08 | 显示全部楼层
原帖由 baibaipangpang 于 2009-4-28 18:11 发表

我现在将610w的电源(曾经带单卡跑了1周很稳定),依次接到第一张显卡、第二张、第三张,好好观察下,如出问题的gpu序号发生变化,就说明是电源的问题。 ...



将610w的电源(曾经带单卡跑了1周很稳定),接到第一张显卡,gpo0.gpu1没有报错,但第二张、第三张显卡 各有一个进程报错!

目前将将610w的电源接到第三张显卡,观察中 。

难道是电源的 问题 ,又是tt的 电源惹的祸?!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2025-5-14 13:49

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表