找回密码
 新注册用户
搜索
查看: 7987|回复: 17

[求助] 报错以后接不到包,何也?

[复制链接]
发表于 2015-2-6 15:53:01 | 显示全部楼层 |阅读模式
E3 1230 V2,挂了3个显卡,PCIE 16x 970,PCIE 4x 760,PCIE 1x 750Ti
现在970和750Ti加beta参数接包正常,760加beta参数报错,错误代码如下,760取消beta参数,却接不到包。各位大侠帮忙看看哪出了问题。谢谢

15:36:53:WU01:FS01:0x17:*********************** Log Started 2015-02-05T15:36:52Z ***********************
15:36:53:WU01:FS01:0x17:Project: 9411 (Run 292, Clone 0, Gen 1)
15:36:53:WU01:FS01:0x17:Unit: 0x00000001ab40413854d27b925b08fe2f
15:36:53:WU01:FS01:0x17:CPU: 0x00000000000000000000000000000000
15:36:53:WU01:FS01:0x17:Machine: 1
15:36:53:WU01:FS01:0x17:Reading tar file state.xml
15:36:53:WU01:FS01:0x17:Reading tar file system.xml
15:36:53:WU01:FS01:0x17:Reading tar file integrator.xml
15:36:53:WU01:FS01:0x17:Reading tar file core.xml
15:36:53:WU01:FS01:0x17:Digital signatures verified
15:36:53:WU01:FS01:0x17:Folding@home GPU core17
15:36:53:WU01:FS01:0x17:Version 0.0.55
15:37:03:WU01:FS01:0x17:Completed 0 out of 16000000 steps (0%)
15:37:03:WU01:FS01:0x17:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
15:41:13:WU01:FS01:0x17:ERROR:exception: First periodic box vector must be parallel to x.
15:41:13:WU01:FS01:0x17:Saving result file logfile_01.txt
15:41:13:WU01:FS01:0x17:Saving result file log.txt
15:41:13:WU01:FS01:0x17:Folding@home Core Shutdown: BAD_WORK_UNIT
15:41:14:WARNING:WU01:FS01:FahCore returned: BAD_WORK_UNIT (114 = 0x72)
15:41:14:WU01:FS01:Sending unit results: id:01 state:SEND error:FAULTY project:9411 run:292 clone:0 gen:1 core:0x17 unit:0x00000001ab40413854d27b925b08fe2f
15:41:14:WU01:FS01:Uploading 2.52KiB to 171.64.65.56
15:41:14:WU01:FS01:Connecting to 171.64.65.56:8080
15:41:14:WU00:FS01:Connecting to 171.67.108.200:80
15:41:15:WU01:FS01:Upload complete
15:41:15:WU01:FS01:Server responded WORK_ACK (400)
15:41:15:WU01:FS01:Cleaning up
15:41:18:WU00:FS01:Assigned to work server 171.64.65.56
15:41:18:WU00:FS01:Requesting new work unit for slot 01: READY gpu:0:GK104 [GeForce GTX 760] from 171.64.65.56
15:41:18:WU00:FS01:Connecting to 171.64.65.56:8080
15:41:25:WU00:FS01:Downloading 967.43KiB
15:41:34:WU00:FS01:Download 13.23%
15:41:40:WU00:FS01:Download 26.46%
15:41:46:WU00:FS01:Download 39.69%
15:41:52:WU00:FS01:Download 59.54%
15:42:00:WU00:FS01:Download 79.39%
15:42:07:WU00:FS01:Download 99.23%
15:42:07:WU00:FS01:Download complete
15:42:07:WU00:FS01:Received Unit: id:00 state:DOWNLOAD error:NO_ERROR project:9411 run:665 clone:0 gen:0 core:0x17 unit:0x00000000ab40413854d27c1fb4db78c6
15:42:07:WU00:FS01:Starting
15:42:07:WU00:FS01:Running FahCore: "E:\Program Files (x86)\FAHClient/FAHCoreWrapper.exe" C:/Users/zhangxr/AppData/Roaming/FAHClient/cores/web.stanford.edu/~pande/Win32/AMD64/NVIDIA/Fermi/beta/Core_17.fah/FahCore_17.exe -dir 00 -suffix 01 -version 704 -lifeline 11176 -checkpoint 15 -gpu 2 -gpu-vendor nvidia
15:42:07:WU00:FS01:Started FahCore on PID 13668
15:42:07:WU00:FS01:Core PID:7020
15:42:07:WU00:FS01:FahCore 0x17 started
15:42:08:WU00:FS01:0x17:*********************** Log Started 2015-02-05T15:42:08Z ***********************
15:42:08:WU00:FS01:0x17:Project: 9411 (Run 665, Clone 0, Gen 0)
15:42:08:WU00:FS01:0x17:Unit: 0x00000000ab40413854d27c1fb4db78c6
15:42:08:WU00:FS01:0x17:CPU: 0x00000000000000000000000000000000
15:42:08:WU00:FS01:0x17:Machine: 1
15:42:08:WU00:FS01:0x17:Reading tar file system.xml
15:42:08:WU00:FS01:0x17:Reading tar file integrator.xml
15:42:08:WU00:FS01:0x17:Reading tar file state.xml
15:42:08:WU00:FS01:0x17:Reading tar file core.xml
15:42:08:WU00:FS01:0x17:Digital signatures verified
15:42:08:WU00:FS01:0x17:Folding@home GPU core17
15:42:08:WU00:FS01:0x17:Version 0.0.55
15:42:18:WU00:FS01:0x17:Completed 0 out of 16000000 steps (0%)
15:42:18:WU00:FS01:0x17:Temperature control disabled. Requirements: single Nvidia GPU, tmax must be < 110 and twait >= 900
15:46:27:WU00:FS01:0x17:Bad State detected... attempting to resume from last good checkpoint
15:49:03:WU00:FS01:0x17:ERROR:exception: The periodic box size has decreased to less than twice the nonbonded cutoff.
15:49:03:WU00:FS01:0x17:Saving result file logfile_01.txt
15:49:03:WU00:FS01:0x17:Saving result file log.txt
15:49:03:WU00:FS01:0x17:Folding@home Core Shutdown: BAD_WORK_UNIT
15:49:04:WARNING:WU00:FS01:FahCore returned: BAD_WORK_UNIT (114 = 0x72)
15:49:04:WU00:FS01:Sending unit results: id:00 state:SEND error:FAULTY project:9411 run:665 clone:0 gen:0 core:0x17 unit:0x00000000ab40413854d27c1fb4db78c6
15:49:04:WU00:FS01:Uploading 2.59KiB to 171.64.65.56
15:49:04:WU00:FS01:Connecting to 171.64.65.56:8080
15:49:05:WU00:FS01:Upload complete
15:49:05:WU00:FS01:Server responded WORK_ACK (400)
15:49:05:WU00:FS01:Cleaning up
******************************* Date: 2015-02-05 *******************************
******************************* Date: 2015-02-06 *******************************
******************************* Date: 2015-02-06 *******************************



回复

使用道具 举报

发表于 2015-2-6 16:42:04 | 显示全部楼层
請重新啟動程式
回复

使用道具 举报

 楼主| 发表于 2015-2-6 16:47:53 | 显示全部楼层
本帖最后由 kittyjia 于 2015-2-6 21:52 编辑

谢谢,我试试。1,试了几个小时,重启后,开始能接到包,计算到1%即报错,然后不停地循环。这个760计算BOINC项目包没事。2,又试了一下。把opencl-index和cuda-index按系统提示定义为,760-0,750Ti-1,970-2,而实际上970是主显卡。这样设置后,760可以接到9411包并顺利计算。不知为何?3,按2,的方法,物理主卡970的ppd下降很多。遂把970定义为0,760定义为1,750Ti定义为2,目前都在计算。4,最后结论,一台机器挂三个显卡,总有一个显卡计算不正常。
回复

使用道具 举报

发表于 2015-2-7 10:23:16 | 显示全部楼层
kittyjia 发表于 2015-2-6 16:47
谢谢,我试试。1,试了几个小时,重启后,开始能接到包,计算到1%即报错,然后不停地循环。这个760计算BOIN ...

结论跟我的三卡机都差x16插槽也这样 以前有450的时候以为450闹得 现在换跑了970+760+280 760总是很萎靡 有时2w左右。。。有时又正常了
回复

使用道具 举报

发表于 2015-2-7 10:46:41 | 显示全部楼层
本帖最后由 金鹏 于 2015-2-7 10:49 编辑

@kittyjia @zflowers

双卡或者三卡+混插在V7下存在错乱问题,通用包表现正常,专用包就会爆包或者PPD不正常问题
楼上2为兄弟把V7里system info界面的GPUS截图上来,同时告知主副次卡.帮着你们试着调整

捕获.PNG

回复

使用道具 举报

 楼主| 发表于 2015-2-9 18:29:13 | 显示全部楼层
挂3个显卡,主显卡:16x,970;副显卡,4x,760;次显卡,1x,750Ti。7.4.4客户端,具体定义,970-0,760-1,750Ti-2
图片: fah01.jpg fah02.jpg fah03.jpg fah04.jpg

评分

参与人数 1基本分 +100 收起 理由
wpf999 + 100 很给力!

查看全部评分

回复

使用道具 举报

发表于 2015-2-9 19:07:15 | 显示全部楼层
你的U有三個線程給GPU用嗎?
回复

使用道具 举报

 楼主| 发表于 2015-2-9 19:29:56 | 显示全部楼层
ocw 发表于 2015-2-9 19:07
你的U有三個線程給GPU用嗎?

除了有时上网,CPU没有负载,没有计算BOINC项目。
回复

使用道具 举报

发表于 2015-2-9 19:35:29 | 显示全部楼层
kittyjia 发表于 2015-2-9 19:29
除了有时上网,CPU没有负载,没有计算BOINC项目。

你看看你的U是否用了三個線程? 還有你的U是intel 還是AMD ? 多少核?
回复

使用道具 举报

发表于 2015-2-9 19:37:24 | 显示全部楼层
本帖最后由 金鹏 于 2015-2-9 19:38 编辑
kittyjia 发表于 2015-2-9 18:29
挂3个显卡,主显卡:16x,970;副显卡,4x,760;次显卡,1x,750Ti。7.4.4客户端,具体定义,970-0,760-1 ...

SLOT 3对应970使用 0 index > OK

捕获.PNG


SLOT 2 对应750ti使用 2 index > OK

捕获1.PNG


SLOT 1对应760使用 1 index > OK

捕获2.PNG


然后总保存按 save

另外楼上O版说的给三张卡留3个线程,另外给slot 3的970加上 beta参数避免接762X毒包
回复

使用道具 举报

 楼主| 发表于 2015-2-9 20:26:48 | 显示全部楼层
谢谢金版,我试试。
回复

使用道具 举报

发表于 2015-2-9 21:07:36 | 显示全部楼层
好多卡啊。。。
回复

使用道具 举报

 楼主| 发表于 2015-2-11 08:21:45 | 显示全部楼层
本帖最后由 kittyjia 于 2015-2-11 08:23 编辑

U是E3 1230 V2,4C8T,技嘉Z77 P-D3主板。除了计算FAH,有时上网,没有其他负载。BIOS里打开了超线程选项。最后结果,挂两个显卡可正常计算,挂三个,其中的一个循环出错。电源是antec 750W模组电源,应该不会有事,因为计算BOINC项目无问题。
回复

使用道具 举报

发表于 2015-2-11 09:38:11 | 显示全部楼层
估计是混插错乱造成爆包可能性更大,按金版建议主攻
回复

使用道具 举报

发表于 2015-2-11 17:22:25 | 显示全部楼层
本帖最后由 金鹏 于 2015-2-11 18:13 编辑
  1. slot 01: READY gpu:0:Tahiti PRO [Radeon R9 280/HD 7900/8950]
  2. slot 02: READY gpu:1:GK104 [GeForce GTX 760]
  3. slot 03: READY gpu:2:GM204 [GeForce GTX 970]
复制代码
  1. 插槽顺序1槽970 2槽760 3槽280
复制代码




slot 03
对应970使用 0 index > OK



slot 02 对应760使用 1 index > OK
slot 01 对应280使用 2 index > OK


然后总保存按 save   
设置好后关闭客户端重开
@zflowers
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-6-2 19:08

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表