|
发表于 2008-1-11 19:26:00
|
显示全部楼层
为什么Rosetta和SIMAP的包这么大呢?
Rosetta和SIMAP都是计算生物类项目的,是计算蛋白质结构相关的问题的。
于是这就涉及到一个问题了:
如何用文本文件来表示一个蛋白质大分子的结构呢?
答案是:用PDB文件格式(XXXX.pdb)。
我把一个4M的Rosetta包解压,用写字板打开,看到了如下信息:
1a34 A 147 C L -99.282 148.435 -172.588 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 148 R L -78.555 -12.931 180.622 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 149 Q E -141.675 144.648 178.287 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 150 V E -135.523 132.709 177.207 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 151 A E -95.989 128.928 181.811 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 152 L E -112.677 145.372 171.467 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 153 V E -129.360 106.872 -172.512 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 154 I E -105.224 125.366 173.825 2.080 12.148 37.577 3 0.000 P 1 F 1
1a34 A 155 S E -97.403 119.274 -174.550 2.080 12.148 37.577 3 0.000 P 1 F 1
(这只是一段,还有很多段)
以第一行为例解释一下:
1a34:这个蛋白质的PDB序号。PDB序号是PDB蛋白质结构数据库(www.pdb.org)中的蛋白ID,一个号对应一个蛋白结构;
A:A链。一个蛋白质可能有几条链。
147:氨基酸序号。氨基酸是组成蛋白质的小片段,一个链可以有从1到N,N个连续的氨基酸。
C:氨基酸类型。C指CYS,半胱氨酸。
L:不知道。可能有Rosetta自设的意义。欢迎补充!
-99.282 148.435 -172.588:三维坐标。按照这些坐标,判定了每一个原子(氨基酸残基)的位置,进而可以推知整个蛋白的结构。
后面的数一般不重要,也可以是Rosetta自定的参数。
有兴趣可以从www.pdb.org上检索PDB序号(例如1a34),下载1a34.pdb,用写字板打开查看相关信息,或者用网站上提供的视图软件显示蛋白质的结构。1a34的结构图见下。
由上面可以看出,表达一个原子(氨基酸残基)的位置及相关信息,需要一整行字符!
如果这个蛋白有上千个残基,上万个原子。。。
所以蛋白质PDB大小,一般从从几百k到几M不等(压缩之前)。如果像Rosetta那样把多个序列放在一个包里,自然就更大了。
这也就决定了计算蛋白质的项目,可能包会比较大!
当然,也可能比较耗内存了!
所以计算Rosetta或SIMAP或其他蛋白质类项目的朋友千万别生气,包大完全是项目性质决定的! |
-
评分
-
查看全部评分
|