boinc平台各项目之最——欢迎补充或修正

gcabcde · 发表于 2008-1-11 11:44:13

提示: 作者被禁止或删除内容自动屏蔽

opernal · 发表于 2008-1-11 12:32:05

占用内存最大的项目——Rosetta
计算结果错误而唯一能得分的项目——Rosetta
任务包最大的项目——simap（1.84MB/个）

瞧我都选了什么项目。。。。。

time_mars · 发表于 2008-1-11 13:59:14

计算出错率最高的项目——cosmology

昨天算了一下，好像没怎么出错呀，虽然说重启后BOINC会显示不正常，据官方的说明它是会接着从checkpoint继续算的。倒是我算Rosetta常常出错……

BiscuiT · 发表于 2008-1-11 14:14:34

任务包最小的项目

我算xtremlab的时候，囤600任务也是只有一个文本文件，里面写了两行信息。。囧

Tynox · 发表于 2008-1-11 14:25:59

原帖由 opernal 于 2008-1-11 12:32 发表
占用内存最大的项目——Rosetta
计算结果错误而唯一能得分的项目——Rosetta
任务包最大的项目——simap（1.84MB/个）

瞧我都选了什么项目。。。。。 ...

呵呵.我也是这样.
第一次算Boinc上的项目就是Rosetta.
SIMAP最近也是算的积极啊.
还好SIMAP的服务器是比较稳定的,不像Seti.

Youth · 发表于 2008-1-11 15:34:03

占用内存最大的项目——Rosetta

Superlink的内存占用接近300M，还有WCG的部分子项目也很耗内存

得分效率高低也是此一时彼一时，不过目前来说cosmology算是够高了

duligavin · 发表于 2008-1-11 16:16:39

建议把项目网址发出来，方便添加。

xtremlab server is temporarily closed

http://xw01.lri.fr:4320/

[ 本帖最后由 duligavin 于 2008-1-11 16:27 编辑 ]

BiscuiT · 发表于 2008-1-11 18:35:14

项目索引：http://www.equn.com/forum/thread-17331-1-2.html

feynord · 发表于 2008-1-11 19:26:00

Rosetta和SIMAP都是计算生物类项目的，是计算蛋白质结构相关的问题的。

于是这就涉及到一个问题了：
如何用文本文件来表示一个蛋白质大分子的结构呢？

答案是：用PDB文件格式(XXXX.pdb)。

我把一个4M的Rosetta包解压，用写字板打开，看到了如下信息：
1a34 A 147 C L  -99.282  148.435 -172.588 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 148 R L  -78.555  -12.931  180.622 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 149 Q E -141.675  144.648  178.287 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 150 V E -135.523  132.709  177.207 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 151 A E  -95.989  128.928  181.811 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 152 L E -112.677  145.372  171.467 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 153 V E -129.360  106.872 -172.512 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 154 I E -105.224  125.366  173.825 2.080 12.148 37.577 3    0.000 P  1 F  1
1a34 A 155 S E  -97.403  119.274 -174.550 2.080 12.148 37.577 3    0.000 P  1 F  1
（这只是一段，还有很多段）

以第一行为例解释一下：
1a34：这个蛋白质的PDB序号。PDB序号是PDB蛋白质结构数据库（www.pdb.org）中的蛋白ID，一个号对应一个蛋白结构；
A：A链。一个蛋白质可能有几条链。
147：氨基酸序号。氨基酸是组成蛋白质的小片段，一个链可以有从1到N，N个连续的氨基酸。
C：氨基酸类型。C指CYS，半胱氨酸。
L：不知道。可能有Rosetta自设的意义。欢迎补充！
-99.282  148.435 -172.588：三维坐标。按照这些坐标，判定了每一个原子（氨基酸残基）的位置，进而可以推知整个蛋白的结构。
后面的数一般不重要，也可以是Rosetta自定的参数。

有兴趣可以从www.pdb.org上检索PDB序号（例如1a34），下载1a34.pdb，用写字板打开查看相关信息，或者用网站上提供的视图软件显示蛋白质的结构。1a34的结构图见下。

由上面可以看出，表达一个原子（氨基酸残基）的位置及相关信息，需要一整行字符！
如果这个蛋白有上千个残基，上万个原子。。。
所以蛋白质PDB大小，一般从从几百k到几M不等（压缩之前）。如果像Rosetta那样把多个序列放在一个包里，自然就更大了。

这也就决定了计算蛋白质的项目，可能包会比较大！
当然，也可能比较耗内存了！

所以计算Rosetta或SIMAP或其他蛋白质类项目的朋友千万别生气，包大完全是项目性质决定的！

Julian_Yuen · 发表于 2008-1-11 20:49:09

赞！长知识了！你应该到蛋白质版专门开一贴来进行科普，呵呵~

duligavin · 发表于 2008-1-11 21:22:30

原帖由 BiscuiT 于 2008-1-11 18:35 发表
项目索引：http://www.equn.com/forum/thread-17331-1-2.html

我的本意是这些“最”项目更吸引人，更适合新人立刻产生认识。

项目多了反而使新人看不过来，引导效果不如这些“最”项目。建议编排得更美观。

回复 #9 feynord 的帖子
高中生物忘得差不多了。。。只回忆起有个名字叫腺嘧啶，

[ 本帖最后由 duligavin 于 2008-1-11 22:07 编辑 ]

Youth · 发表于 2008-1-11 23:32:14

嗯，feynord在这方面的专业知识比我们其他人可强多了，希望以后还能继续多多科普：）

原帖由 Julian_Yuen 于 2008-1-11 20:49 发表
赞！长知识了！你应该到蛋白质版专门开一贴来进行科普，呵呵~

炕苕 · 发表于 2008-1-11 23:49:21

我就喜欢占内存的项目，WCG双任务一下就吃掉了500多M的内存，爽啊，不然真不知道买2G内存做什么了

Tynox · 发表于 2008-1-11 23:56:13

呵呵.现在我机器的内存也大了.就冲着CPDN去了.当然Rosetta还是继续算啦.

feynord · 发表于 2008-1-11 23:57:34

谢谢，我其实一直想研究研究Rosetta整个的项目流程，输入输出文件里都写了啥，看看项目是怎么搞得，搞个类似的容不容易。。。等有时间搞明白了再写个详细的吧

今天看到Rosetta荣登两项之最，比较兴奋，虽然感觉没遇到过计算结果错误而能得分

		自动登录	找回密码
密码			新注册用户

gcabcde gcabcde 当前离线积分 391 UID 7224 在线时间小时最后登录 1970-1-1 头像被屏蔽	发表于 2008-1-11 11:44:13 \| 显示全部楼层 \|阅读模式提示: 作者被禁止或删除内容自动屏蔽
	【优化程序】【SETI@home】Windows 系统的一体化优化程序安装器 v0.41，自助式简便安装各种版本优化程序，推荐使用。
	回复使用道具举报

boinc平台各项目之最——欢迎补充或修正

回复 #7 duligavin 的帖子

为什么Rosetta和SIMAP的包这么大呢？

评分

回复 #9 feynord 的帖子

回复 #13 炕苕的帖子

回复 #10 Julian_Yuen 的帖子

boinc平台各项目之最——欢迎补充或修正

回复 #7 duligavin 的帖子

为什么Rosetta和SIMAP的包这么大呢？

评分

回复 #9 feynord 的帖子

回复 #13 炕苕 的帖子

回复 #10 Julian_Yuen 的帖子

回复 #13 炕苕的帖子