Genome Comparison

来自中国分布式计算总站
跳转到导航 跳转到搜索

基因组比较
本项目已结束
本项目是 IBM 公司主持的 World Community Grid 项目的子项目。

概述

多年来,科学家们一直在相互比较各种不同生物体的基因序列,以便确定它们之间是否存在相似点。相似的基因序列可能在功能方面存在相似点。因此,如果研究某种生物体内未知功能基因序列的科学家将该序列与另一种生物体中相似的已知功能基因序列进行比较,就可能得出该序列在生物体内所起作用的重要线索。

难题在于,当科学家们发现新的信息时,他们会将其输入包含基因序列信息的众多数据库中的一个。多年来,大量次要信息(结构、功能、与其他条目的相似性以及大量交叉引用)添加到了蛋白质数据库的条目中。这类信息输入之后就很少会进行更新或修改。因而,对所预测的蛋白质功能的说明通常是不完整的,使用不标准的术语,或者,可能是从先前错误的说明序列中推断出的错误信息。另外,许多蛋白质由多种结构和/或功能域(包含独特的进化、功能和结构单元的模块)组成,而自动说明过程可能会忽视这些域。

“基因组比较”项目的主要目标是对所有预测的蛋白质序列首次进行“穷举式”成对比较,以获得将要使用的相似性索引和标准化的基因本体论(www.geneontology.org),作为说明者社区的参考存储库,以便为生物学家提供无价的数据源。用于基因组比较项目中的序列相似点比较称作 SSEARCH(W.R. Pearson [1991] Genomics 11:635-650),Smith-Waterman 精确算法的自由可用的实施(T. F. Smith 和 M. S. Waterman [1981] J. Mol. Biol. 147:195-197) 发现序列对之间最佳算术本地队列。科学家们排出在其他生物体中发现的新基因组的序列之后,就可以将这些信息添加到数据库中,然后计算比较,与其他科学家们分享新信息。

因此,精确的说明、对不一致的纠正,以及对未知功能的假定蛋白质指定可能的功能都有可能实现。而且,还将正确辨别具有多个域和功能元素的蛋白质。甚至还能检测到蛋白质之间细微的关系。这将提高生物数据的质量,促进对生物数据的破译,以及增强我们对生物系统、宿主-病源体和环境相互作用的了解

项目状态和成果

“基因组比较”Web 站点的页面中提供了有关该项目的信息,另外,项目科学家也在该站点中提供了信息。要获取最新的状态报告,请参阅“基因组比较”状态报告。如果对该项目有意见或疑问,请在“基因组比较”论坛上发布贴子。

相关链接