Human Proteome Folding

来自中国分布式计算总站

人类蛋白质组折叠

本项目是 IBM 公司主持的 World Community Grid 项目的子项目。

项目简介

仅在几年前,科学家们才成功绘制了人类基因组序列草图。我们的基因中存储着令人吃惊的海量信息,基因的面纱才刚刚揭开一角。事实上,正是由这些基因生成的蛋白质执行着保持我们生命的所有功能。

然而,科学家们仍然还不了解人类蛋白质的大部分功能。如果了解了每种蛋白质如何影响人类的健康,科学家们就可以发明治疗疾病的新方法。

现在有大量的数据可用于确定个别蛋白质的作用,但是这些数据需要进行分析才有用。在超级计算机上执行这种分析可能需要花费数年时间。World Community Grid 希望将这个时间缩短到几个月。

蛋白质呈折叠成一团的杂乱无章的长链状。蛋白质可以折叠成数量巨大的不同形状。搜索所有这些形状以确定个别蛋白质的确切功能是一项巨大的挑战。

“人类蛋白质组折叠”项目为科学家们提供数据,以用于预测数量巨大的人类蛋白质的形状。这些预测为科学家们提供了确定人体内个别蛋白质生物功能的线索。如果了解了每种蛋白质影响人类健康的方式,科学家们就可以发明新方法来治疗各种人类疾病,如癌症、爱滋病、非典和疟疾等。

请访问关于本项目页面,获取对蛋白质的非专业描述,并了解 World Community Grid 如何使用您计算机上的代理软件来“折叠”蛋白质。

ISB 为 World Community Grid 设计了“人类蛋白质组折叠”项目,并且在其大型的研究工作中运用 WCG 计算的结果。要了解“人类蛋白质组折叠”项目的更多信息,请访问 Institute For Systems Biology 的 Web 站点。



关于本项目

人类蛋白质组折叠项目:通俗的解释

蛋白质是一切生命的物质基础。人类身体的所有部分都包含蛋白质或是由蛋白质组成的。

什么是蛋白质?

蛋白质是由称为氨基酸的较小分子的长链组成的大分子。组成所有蛋白质的氨基酸只有 20 种,而有时一个蛋白质分子就由数百个氨基酸分子组成。

蛋白质通常不会呈现长链状态,这就增加了蛋白质的复杂性。氨基酸链一旦构建完成,就会折叠并缠绕成为更紧密和特殊的形状,这样可以使蛋白质在人体中执行特定而必需的功能。

由于不同的氨基酸按照特定的规则彼此粘连在一起,因此蛋白质会呈现出折叠的形状。设想氨基酸是 20 个不同颜色的珠子。珠子具有粘性,但只有某几种颜色的组合才可以粘在一起。这使得氨基酸链以一种特殊的方式折叠,从而构成了对人体有用的蛋白质。人体细胞具有帮助蛋白质正确折叠的机制,同样重要的是,细胞还具有除去不正确折叠的蛋白质的机制。

蛋白质如何与人类基因关联?

全部人类基因的集合称为“人类基因组”。人类基因组中的基因超过三万个,数量取决于计数方法。每个基因都是称为 DNA 的长链的一段,它确定了三万多个蛋白质中每一个的氨基酸链构成方式。最近几年,科学家们已经能够绘制人类基因的序列图。这意味着我们现在知道了人类所有蛋白质的氨基酸序列。因而,人类基因组与作为人类所有蛋白质集合的“人类蛋白质组”有着直接的关系。

蛋白质的奥秘

尽管研究人员已经了解了很多关于人类蛋白质组的信息,然而大多数蛋白质的功能仍是一个谜。基因没有确切地揭示蛋白质如何折叠成最终的形状,而这个形状十分重要,因为它决定了一种蛋白质的功能以及该蛋白质可以和其他哪些蛋白质连接或相互作用。

蛋白质就像拼图块。例如,肌蛋白相互连接形成了肌纤维。因为形状以及与形状相关的其他因素,这些蛋白质以一种特殊的方式连接在一起。

蛋白质的形状确定了它是否可以和其他蛋白质互锁,因此细胞和身体的一切都是由蛋白质控制的。例如,病毒或细菌的蛋白质具有独特的形状,从而可以破坏细胞膜并感染细胞。

人类蛋白质组折叠项目

了解蛋白质的形状可以帮助研究人员了解蛋白质如何执行特定的功能以及疾病如何阻止蛋白质执行保持细胞健康所必需的功能。

“人类蛋白质组折叠”项目可以在网格中结合数百万台计算机的计算能力,以帮助科学家们了解人类蛋白质如何折叠。这个具有重大意义的任务中要完成的作业可通过网格共享,因此可以比常规的超级计算机更快地获得结果。如果能更好地了解蛋白质的结构,科学家们就可以了解疾病的机理,并能最终找到治愈疾病的方法。

当您的网格代理程序运行时,它会以各种方式折叠氨基酸链,并评估每种折叠与确定特定氨基酸粘连与否的具体规则的符合程度。当计算机尝试以数百万种方式折叠链时,其实是在尝试蛋白质在人体中实际的折叠方式。计算出的每种蛋白质的最佳形状会返回给科学家们,以供日后研究。

了解您的代理应用程序窗口

单击您的代理应用程序窗口右下角的“i”。

计算机程序的名称是 Rosetta。当程序尝试不同的折叠方式时,它会计算出一个“Rosetta 分数”,表明这种蛋白质折叠方式的适当程度。要计算该分数,程序会按照多种计分规则考虑蛋白质中氨基酸的压缩方式。分数越低(更接近于负数),说明折叠方式越好。

您的计算机为特定蛋白质确定的最佳折叠方式的“Rosetta 分数”显示的值为“Min”,该值位于您的代理应用程序窗口左侧的当前“Rosetta 分数”下。您可以在窗口的右侧看到计算机正在计算的部分折叠的蛋白质的快照图片。左边显示表明迄今为止所折叠蛋白质的适合程度的另外两个数字。 “Environment”分数显示被挤压在一起的蛋白质核心的适合程度。“Pair”分数显示了特定氨基酸和适当的配对物的匹配程度。如果试验的折叠分数很差,那么 Rosetta 程序会尝试用不同的方式重新折叠蛋白质,以检查是否可以获得一个较好的分数。对每种蛋白质都会数百万次地执行这种计算。科学家们会找出得分最高的蛋白质结构并在接下来的研究步骤中使用。



相关链接