找回密码
 新注册用户
搜索
查看: 5609|回复: 4

分享信息:为什么CPDN的数据包这么大?

[复制链接]
发表于 2006-2-7 15:25:16 | 显示全部楼层 |阅读模式
可能很多朋友都和我一样,对CPDN的WU居然这么大感到疑惑,而事实上,这也给CPDN这个项目带来了一些推广上的麻烦,即要求机器的稳定性和速度。前者容易导致计算半途而废,后者容易导致WU过期。所以对机器的要求有点严格。我一直在留意这方面的信息,这里和大家分享一下:
    1、气候在区域上的关联性。
    与其他分布式计算项目不同,全球气候具有很高的相互关联的特性。这一部分的气候决定了另一部分的气候,而另一部分的气候又作用于其他的地区。有人形象的说过一句话,我记得不太清楚了,好象是远在南半球的澳大利亚的一只蝴蝶轻轻动翅膀所带来的风,等到达北半球的美国纽约时,就可能变成了一场飓风。正是因为气候的这种相互关联性,CPDN的WU由很多个小的部分组成,相互之间又是不可分割的,否则计算结果就没有意义。
    2、气候在时间上的连贯性。
    让我们来想象一下把CPDN的WU切割成很多个小的部分独立计算,会有什么样的结果。比如以100年为单位,计算全球气候,现在把它切成1年一个WU,整个单位就有100个WU。现在把它们放到网络上让大家去下载。有的机器可能非常先进,速度也快,很快就可以返回结果了,而有的机器可能比较慢一些,或者因为不可预知的情况而半途而废。所以,回收这100个WU的计算结果的时候就是参差不齐的,混乱的。这对研究100年的气候模型来说只是一些没有意义的片段。
    这样还造成另外的麻烦,那就是对那些半途而废的WU,在给予一定合理期限的等待以后又需要发给其他人,再回收,这样一来,回收完100个WU可能要花上一年的时间,而结果仅仅是计算了一个单位。
    CPDN研究气候的方法是通过计算同一时间段海量的模拟气候模型,来确定一些气候因素,比如阳光,洋流,二氧化碳等等对气候的影响敏感度,也就是一些参数,并以此来作为预测气候变迁的依据。因此,可能需要N个这样的100年单位。如果把每一个单位分割成很小的WU来计算,或许对客户端来说具有较小的损失率,但是却对整个项目的完成带来无法逾越的障碍。

    CPDN的WU如此之大(我的P4 2.8G需要1500小时),以至于它要求参加CPDN的志愿者必须符合以下条件:
    1、有一台速度不一定要多快,但是一定要稳定的电脑;
    2、全年上网累计时间稳定,并不低于WU的预测时间。(我每周一到五工作,电脑工作时间大概是9小时,这样计算我一年大概有2340个计算小时,应该是够了。)
    3、坚持计算的耐心。很多时候让WU半途而废的不是计算机的错误,而是我们没有一颗坚持而不浮躁的心。
回复

使用道具 举报

发表于 2006-2-7 16:22:53 | 显示全部楼层
我觉得无法分割可能还因为中间过程数据量相当大

我还在算传统实验,phase1完成后,临时数据量从400M减到150M,然后又开始慢慢增加了,估计最后会在600M出头...

严重同意算CPDN最重要的还是恒心:)
回复

使用道具 举报

发表于 2006-2-8 02:20:53 | 显示全部楼层
晕,几天没来,严重掉队了。
tcogh327怎么升官成版主了?恭喜一下先。
同意以上观点。
回复

使用道具 举报

 楼主| 发表于 2006-2-8 08:12:15 | 显示全部楼层
谢谢szterry
工作要忙,CPDN也要算啊。不过现在的新人都很厉害,我都快要掉到第二页去了:)
回复

使用道具 举报

发表于 2006-2-20 12:37:09 | 显示全部楼层
引用 tcogh327 在 2006-2-7 03:25 PM 时的帖子:
2、气候在时间上的连贯性。
    让我们来想象一下把CPDN的WU切割成很多个小的部分独立计算,会有什么样的结果。比如以100年为单位,计算全球气候,现在把它切成1年一个WU,整个单位就有100个WU。现在把它们放到网络上让大家去下载。有的机器可能非常先进,速度也快,很快就可以返回结果了,而有的机器可能比较慢一些,或者因为不可预知的情况而半途而废。所以,回收这100个WU的计算结果的时候就是参差不齐的,混乱的。这对研究100年的气候模型来说只是一些没有意义的片段。
    这样还造成另外的麻烦,那就是对那些半途而废的WU,在给予一定合理期限的等待以后又需要发给其他人,再回收,这样一来,回收完100个WU可能要花上一年的时间,而结果仅仅是计算了一个单位。
    CPDN研究气候的方法是通过计算同一时间段海量的模拟气候模型,来确定一些气候因素,比如阳光,洋流,二氧化碳等等对气候的影响敏感度,也就是一些参数,并以此来作为预测气候变迁的依据。因此,可能需要N个这样的100年单位。如果把每一个单位分割成很小的WU来计算,或许对客户端来说具有较小的损失率,但是却对整个项目的完成带来无法逾越的障碍。

  我不赞成第二点,如果分成100个包,CPDN可以把有效期限设得短一些(比如两周,分成100个包13个小时就能算完一个包的,一个人24*7小时开机,两周可完成25个左右的包),不成功的包在过期后就可以再发给另外的人计算(SETI也是如此的),真正运作起来,其实要回收100个包并不是难事,只要四个人两周内就能完成一个完整的任务。反而是如果只做成一个包,有些人按年初的计算可能能够完成一个包,但到了年底任务快完成时(例如计算CPDN的电脑不归自己控制了),才发现在期限内完不成任务(例如要出差一个月,没法继续开机了),这样会造成一个包其实已经利用了大量的计算资源,但却无法完整完成,对CPDN项目是更加不利的!!而且要过一整年的时间才能判断任务是否真正可以完成!
  个人觉得分成100个包在技术上并不是什么难题(各项目都是如此的),只是在100个包都完成后要合成一个任务比较麻烦而已。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 新注册用户

本版积分规则

论坛官方淘宝店开业啦~
欢迎大家多多支持基金会~

Archiver|手机版|小黑屋|中国分布式计算总站 ( 沪ICP备05042587号 )

GMT+8, 2024-5-8 18:27

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表