Fiocruz Genome Comparison

来自中国分布式计算总站
跳转至: 导航搜索

2-7 title fiocruz genome zh.jpg

Fiocruz Genome Comparison

本项目是 IBM 公司主持的 World Community Grid 项目已经完结的子项目。

任务

World Community Grid 和 Oswaldo Cruz Institute, Fiocruz 将比较基因信息,以提高生物数据的质量、促进对生物数据的破译,以及增强我们对生物系统、宿主-病源体与环境交互的理解。这些信息在研制更好的药物和疫苗以及改进诊断过程方面可起到关键的作用。

意义

基因、基因组和基因组数据

Genome comp 2.jpg

生物体的基因组是其完整的遗传信息集。基因组由基因组成,基因是所有具有生命的生物体中的遗传单元。基因决定了身体发育和新陈代谢,并会在一定程度上影响生物体的行为。大多数基因对主要支配细胞生化反应的蛋白质进行编码。一些基因会生成非常重要的 RNA 分子;而另一些基因根本不会对任何分子进行编码,但从结构或生理调节的观点来看,它们还是非常重要的。

通过计算机分析,已经预测基因的哪些区域对蛋白质(从细菌中数百或数千个蛋白质到人类 30000 个蛋白质及其变体)进行编码。然而,对那些衍生蛋白质的细胞功能的预测(结构、酶、输送载体和信号功能等等)大多数都是假设的。通过对数据库的蛋白质进行序列比较,计算机分析已确定了大多数可能的功能的属性。然而,迄今为止,只有一小部分预测的蛋白质的功能被实验室的试验所确认。

自 20 世纪 90 年代以来,通过全球性的合作,目前已经确定了超过 400 种生物体的完整基因代码(www.genomesonline.org),如细菌、酵母、原生动物寄生虫、无脊椎动物和脊椎动物,以及到人类和多种植物。目前正在进行 1500 多项基因组研究,涵盖了医学、商业、环保和工业方面的重要的研究模型。这些研究的结果是确定了部分基因组序列。这些新的基因组序列会以更快的速度露出庐山真面目,从而不断补充成千上万种生物体的可用数据“拼图”。

蛋白质编码基因及其说明

Genome comp 3.jpg

RefSeq 发行版 19(2006 年 9 月)是一个参考序列集(www.ncbi.nlm.nih.gov/RefSeq),它记录了超过 280 万个预测的蛋白质编码基因,来自包括病毒在内的3774 种生物体。利用生物无机化学工具以及进行数据库比较,已经确定了公认的蛋白质编码基因、关联的蛋白质序列,以及对功能的说明(将预测的生物功能和结构特性分配给原始的序列数据)。基于数量不断增加的数据库之间的交叉引用,这种结构和功能说明多年来一直在不断积累。尽管科研人员现在利用基因、蛋白质和细胞功能的术语参考集(称作基因本体论 - GO [www.geneontology.org])以及标准化的解释准则,不断努力地构造经过仔细验证的蛋白质参考集(其属性功能已经过实验验证),但这样的数据库现在还不存在。

另外,多年来,大量次要信息(结构、功能、与其他条目的相似性以及大量交叉引用)添加到了蛋白质数据库的条目中。这类信息输入之后就很少会进行更新或修改。因而,对所预测的蛋白质功能的说明通常是不完整的,使用不标准的术语,或者,可能是从先前错误的说明序列中推断出的错误信息。另外,许多蛋白质由多种结构和/或功能域(包含独特的进化、功能和结构单元的模块)组成,而自动说明过程可能会忽视这些域。

基因组比较项目:改进数据库中的蛋白质功能说明

Genome comp 4.jpg

“基因组比较”项目的主要目标是对所有预测的蛋白质序列首次进行“穷举式”成对比较,以获得将要使用的相似性索引和标准化的基因本体论(www.geneontology.org/),作为说明者社区的参考存储库,以便为生物学家提供无价的数据源。用于基因组比较项目中的序列相似点比较称作 SSEARCH(W.R. Pearson [1991] Genomics 11:635-650),Smith-Waterman 精确算法的自由可用的实施(T. F. Smith 和 M. S. Waterman [1981] J. Mol. Biol. 147:195-197) 发现序列对之间最佳算术本地队列。

因此,精确的说明、对不一致的纠正,以及对未知功能的假定蛋白质指定可能的功能都有可能实现。而且,还将正确辨别具有多个域和功能元素的蛋白质。甚至还能检测到蛋白质之间细微的关系。

细胞中的生物系统非常复杂,我们对于细胞中完整的蛋白质内容、蛋白质的相互作用、生物化学主道及其规律还知之甚少。一个能在基因组级别反映所有已知生物体相应蛋白质之间全部主序列关系的数据库,对于提高我们对这种复杂性的了解具有不可估量的价值。

另外,这种数据库能够为我们了解地球生物多样性提供有益的实验方法。研究环境样本或对新生物体进行零散分析的科学家们将能够使用“基因组比较”分析的结果来研究这些生物体的遗传学和生物化学的不同方面。而且,根据这些基因组分析而得出的对蛋白质(和微生物)之间进化关系的描述和分析,将使我们对基因组结构进化和生物体的生物化学和结构组织的理解向前迈进一大步。大规模的创新,如对“生命树”的描述以及将生物多样性进行分类,可以从“基因组比较”数据库获益匪浅。 新的药物、疫苗和诊断方法

基于基因组的科学研究和(生物)技术的发展使得发现新的诊断方法以及研制新的药物和疫苗的工作不断取得进步。比较基因组以及生物化学主道(pathway)和细胞发展过程方面的知识在该领域是最为重要的。另一方面,功能分析以及蛋白质相互作用方面的研究对于了解微生物、多细胞生物体中的细胞以及病原体如何与其环境(和/或宿主)相互作用来说是至关重要的,这些研究能够为传染病、寄生虫病、新陈代谢方面的疾病、慢性病或变性疾病制订出新的控制策略。

Genome comp 5.jpg

World Community Grid 和基因功能说明

像严格的成对序列比较这样计算非常密集的操作,以及对当今所有已完整排序的基因组中预测的蛋白质进行的穷举式比较,如果没有 World Community Grid 这样一个极为庞大的网格结构来支持,几乎是不可能实现的。由此产生的信息矩阵会形成一个十分宝贵的数据库,该数据库将会随着新的基因组序列的揭示而不断增大,同时它还会成为科学社区中的许多功能性研究的基本素材。


项目状态和成果

“基因组比较”Web 站点的页面中提供了有关该项目的信息,另外,项目科学家也在该站点中提供了信息。要获取最新的状态报告,请参阅“基因组比较”状态报告。如果对该项目有意见或疑问,请在“基因组比较”论坛上发布贴子。

已完成

本项目于 2006 年 11 月 21 日启动,2007 年 7 月 21 日完成,单击此处以查看“基因组比较”项目的最终统计信息

单击此处转至“基因组比较”论坛。在该论坛中,您可以阅读研究参与者和 World Community Grid 技术团队更新的贴子。

相关链接