GO编号
GO编号(英文:GO ID)是基因本体论(英文:Gene Ontology, GO)知识体系中为每一个标准术语分配的唯一、稳定且持久的标识符。其格式统一为以“GO:”为前缀的七位数字(例如,GO:0008150 代表“生物过程”这一顶级术语)。GO编号是链接、引用和计算处理GO术语的基石,确保了在全球范围内的生物信息学数据库、工具和分析流程中,对基因功能描述的一致性和可追溯性。
结构与格式
标准格式:
GO:+ 7位数字。数字部分从0000001开始,按术语创建顺序递增分配。不足七位时,前方以零补足。持久性与稳定性:一旦分配,GO编号将永久指向一个特定的GO术语及其定义。即使该术语的名称在未来被修正或同义词发生变更,其GO编号也保持不变。如果一个术语被废弃,其编号不会被重新分配给新术语。
可解析性:绝大多数生物信息学资源和工具都能直接识别和处理GO编号格式,作为功能信息的输入或输出。
核心功能与重要性
1. 作为知识整合的通用“货币”
GO编号是连接以下三方的关键纽带:
本体本身:每个GO术语的唯一标识。
基因/蛋白质注释:在各大数据库(如UniProt, Ensembl, NCBI)中,基因或蛋白质的功能信息通过GO编号链接到具体的GO术语。
分析工具与软件:进行功能富集分析(英文:Functional enrichment analysis)的工具(如DAVID, clusterProfiler, GSEA)均依赖GO编号来识别和关联基因集与功能类别。
2. 实现精确的数据交换与引用
在科学文献、数据提交到公共数据库(如GEO, ArrayExpress)或共享分析结果时,使用GO编号可以无歧义地指代特定的功能概念,避免了因术语名称同义词或表述细微差异导致的混淆。
3. 支持计算与推理
GO编号的机器可读性使得计算机程序能够:
根据GO本体的有向无环图(英文:Directed Acyclic Graph, DAG)结构,沿着
is_a和part_of关系向上或向下遍历,实现功能的语义扩展或精炼。对不同来源、不同物种的注释数据进行跨数据库的整合与比较。
如何获取与使用
官方查询:可通过 基因本体论官网(http://geneontology.org)的搜索框或 AmiGO 2 浏览器,输入术语名称或已知GO编号进行查询,获取其完整定义、层级关系和关联的基因产物列表。
数据库条目:在任何一个标注了GO注释的基因或蛋白质数据库条目中(如 UniProtKB 的“Function”部分或“Gene Ontology”部分),都会列出其对应的GO编号。
文件下载:完整的本体文件(
.obo或.owl格式)和物种特异的注释文件(.gaf格式)中都包含GO编号。
表1:重要GO编号示例
| GO编号 | 所属本体 | 术语名称 | 定义简述 |
|---|---|---|---|
| GO:0008150 | 生物学过程 | 生物过程 | 生物学目标或结果的实现,由一个或多个有序的分子功能集合而成。 |
| GO:0003674 | 分子功能 | 分子功能 | 在分子水平上描述基因产物的活性,如催化或结合。 |
| GO:0005575 | 细胞组件 | 细胞组件 | 基因产物所在的细胞部分或细胞外环境。 |
| GO:0006915 | 生物学过程 | 细胞凋亡 | 细胞自主决定并执行其死亡的程序性过程。 |
| GO:0005524 | 分子功能 | ATP结合 | 选择性地、非共价地与ATP相互作用。 |
| GO:0005739 | 细胞组件 | 线粒体 | 半自主的双膜细胞器,通过氧化磷酸化产生大部分细胞ATP。 |
挑战与注意事项
编号不直接体现语义:仅从GO编号本身无法获知术语的含义,必须通过查询本体来获取其名称和定义。
术语的演变:虽然GO编号不变,但其对应的术语名称和定义可能随着生物学知识的更新而被修订。因此,在引用时最好同时提供编号和术语名称。
废弃术语:极少数术语可能因过时或逻辑问题被标记为“obsolete”,但其GO编号仍保留在系统中以供历史追踪,使用时需注意其状态。
参考文献
The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334. (GO官方联盟的最新资源综述,详细说明了本体的维护机制,包括标识符的管理)
Ashburner, M., et al. (2000). Gene ontology: tool for the unification of biology. Nature Genetics, 25(1), 25–29. (奠基论文,确立了构建统一功能词汇表及其标识系统的基本思想)
Gene Ontology Consortium. (2015). Gene Ontology Consortium: going forward. Nucleic Acids Research, 43(D1), D1049–D1056. (阐述了GO的发展方向,包括对资源持续访问性的承诺,其中标识符的稳定性是关键)
Carbon, S., et al. (2009). AmiGO: online access to ontology and annotation data. Bioinformatics, 25(2), 288-289. (介绍了官方的GO浏览器AmiGO,是查询和验证GO编号与术语对应关系的主要工具)
UniProt Consortium. (2023). UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Research, 51(D1), D523–D531. (展示了全球最大的蛋白质知识库如何大规模地使用GO编号对蛋白质功能进行标准化注释)
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
