找回密码
 新注册用户
搜索
楼主: ledled

[注意] 因为断电开机造成GTV进度丢失...

[复制链接]
发表于 2008-12-6 21:16:18 | 显示全部楼层

回复 #15 BiscuiT 的帖子

其实还是有Bug的~~~现在已经发现了~~~不过不是在断电保存的部分~~~

你应该说好在ledled比你早几天断电……
回复

使用道具 举报

 楼主| 发表于 2008-12-6 22:11:36 | 显示全部楼层
原帖由 fwjmath 于 2008-12-6 21:16 发表
你应该说好在ledled比你早几天断电……

回复

使用道具 举报

发表于 2008-12-6 23:14:01 | 显示全部楼层
搞两个文件,轮着写,这次写这个,下次写那个。

文件未尾要有一个验证串,用来对上面的数据进行完整性校验,假如文件被破坏,那要么不存在这个串,要么串的校验会发现错误,那这个文件就不能用,用另一个。

断电造成丢失的主要原因还有一个就是磁盘缓存,程序写完了,但其实并没有物理写入到磁盘里。操作系统并不是马上把东西实际写入到磁盘中,也没有固定的时间间隔写入,主要看当前负载,如果IO 多的话,那会以最快速度写入,然后把缓冲区尽量腾空出来给其它IO用。如果当前非常空闲,那也许不会马上写,等多久也不一定,谁也不知道它的算法。。。。也不可能要求用户禁用磁盘的缓存吧,这样会影响机器IO性能。

或者,按我开始说的方法,不但搞两个文件,要多搞几个,反正占不了多少空间。文件越多,某文件距离上次写时间就越长,物理写入的机会就越大。其实有个 3、 5 个文件肯定没问题了。

还有,不必为了吝啬那几分钟的计算时间而把写文件做得太频繁,越频繁就越难保证文件被物理写入。宁愿断电了丢失 0.1% 也没关系,没必要 0.01% 就写一次,因为断电和死机并没有想象中多,真出现的时候,丢10来分钟的计算时间也并不可怕。
回复

使用道具 举报

发表于 2008-12-6 23:16:28 | 显示全部楼层

回复 #18 彬彬 的帖子

现在已经是三个文件了~~~
我是利用文件的长度来验证的~~~因为文件的长度是固定的~~~
其实0.01%写一次我觉得比较合适~~~因为倒数第二个万分点通常需要1个小时的计算时间~~~这是问题难度的不均匀所导致的~~~
回复

使用道具 举报

发表于 2008-12-6 23:20:41 | 显示全部楼层
原帖由 fwjmath 于 2008-12-6 23:16 发表
现在已经是三个文件了~~~
我是利用文件的长度来验证的~~~因为文件的长度是固定的~~~
其实0.01%写一次我觉得比较合适~~~因为倒数第二个万分点通常需要1个小时的计算时间~~~这是问题难度的不均匀所导致的~~~ ...



那你也可以试试定时不定量。验证串也是需要的,有时候长度一样,但内容却非法。
回复

使用道具 举报

发表于 2008-12-6 23:22:10 | 显示全部楼层
我以前算 UD 的时候,别说死机了,有时意外不小子任务管理器里结束了它,都可能会从 0 开始。。。

所以以前算 UD 有个习惯,定期整个文件夹复制一份。出了问题的话,直接用备份的文件夹继续,出问题那个就删掉算了。丢点进度总好过全丢
回复

使用道具 举报

发表于 2008-12-6 23:42:22 | 显示全部楼层

回复 #20 彬彬 的帖子

其实主要是因为定时的话效率会比较低一些~~~还是按照问题本身的特点来分比较好~~~
验证串是可以考虑的~~~
现在的算法的话尾部内容非法也有很大的概率可以自动纠正~~~如果纠正不了的话程序直接就出错~~~不知道这样好不好~~~
其实因为存盘点的数据是有很明显的结构的~~~可以顺便用作验证串~~~我想一想这样可不可行~~~
回复

使用道具 举报

发表于 2008-12-6 23:45:56 | 显示全部楼层
嗯。。checkpoint不需要频繁。。死机和断电现在是比较稀罕的。。

(刚才是因为插电器短路大厅的漏保跳了,黑乎乎的老爸把总空开拉了下来。。其实我房间还安好的说。。囧
回复

使用道具 举报

发表于 2008-12-6 23:49:31 | 显示全部楼层

回复 #16 fwjmath 的帖子

应该说我的进度安好体现了二极管的牺牲没有白费了喵~
回复

使用道具 举报

发表于 2008-12-6 23:52:42 | 显示全部楼层

回复 #23 BiscuiT 的帖子

一分钟一次每次一百个字节不到还不算很过分吧~~~

其实在家断电还好啊~~~自己可以修~~~上个星期天我去学校洗衣房洗衣服的时候发现电闸跳了,没法洗衣服,因为是星期天所以管事的法国人全部不在(回家悠哉游哉去了……),完全无法可想……最后只能手洗勉强度日……
回复

使用道具 举报

发表于 2008-12-6 23:56:08 | 显示全部楼层
原帖由 fwjmath 于 2008-12-6 23:52 发表
一分钟一次每次一百个字节不到还不算很过分吧~~~

其实在家断电还好啊~~~自己可以修~~~上个星期天我去学校洗衣房洗衣服的时候发现电闸跳了,没法洗衣服,因为是星期天所以管事的法国人全部不在(回家悠哉游哉去了……),完全 ...


你什么衣服呀。在学校手洗也是很正常的。。。。
回复

使用道具 举报

发表于 2008-12-7 00:06:23 | 显示全部楼层

回复 #25 fwjmath 的帖子

我觉得不过分。。但不免会有人觉得过分。。
(例如用SSD的家伙。。算个一周就有上万次写入。。

天气冷手洗衣服还是挺痛苦的。。囧
(是我就扔回桶子囤多一天了。。
回复

使用道具 举报

发表于 2008-12-7 00:11:57 | 显示全部楼层

回复 #26 彬彬 的帖子

不是什么好衣服~~~但是因为有洗衣机,向来大家是用洗衣机洗,所以没人买脸盆或者桶之类专职洗衣服的东西~~~于是,当洗衣机抛弃了我们自己睡觉的时候,悲剧就发生了……
而且我们这里宿舍是没有晾衣服的地方的……而且也规定不能把衣服晾到窗上,因为法国人认为这样有碍观瞻……无奈只能找了个插板用上面的电线来晾衣服……
好在现在修好了……
回复

使用道具 举报

发表于 2008-12-7 00:45:33 | 显示全部楼层
能甩干还是挺不错的...

35巴仙了
回复

使用道具 举报

发表于 2008-12-10 16:32:22 | 显示全部楼层
现在我碰到的是非正常关闭进度保留但是cpu时间清零……

直接把cputime放到checkpoint里面如何?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-6-22 04:22

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表