基因本体论
基因本体论(英文:Gene Ontology, GO)是一个全球范围内广泛使用的、标准化的生物信息学(英文:Bioinformatics)资源与知识库。它旨在统一地描述任何生物体中基因及其产物(如蛋白质、非编码RNA)的功能(英文:Function)。GO并非一个基因列表或数据库,而是一个结构化的、受控的词汇表(本体),用于注释基因功能,并支持大规模的功能组学数据分析。
核心结构与组成
GO系统由三个独立但相互关联的本体(英文:Ontologies)组成,分别从不同维度描述基因产物的属性:
细胞组件(英文:Cellular Component, CC):描述基因产物在细胞内发挥作用的具体位置(例如,“细胞核”、“核糖体”、“质膜”)。这可以是亚细胞结构或大分子复合物。
分子功能(英文:Molecular Function, MF):描述基因产物在分子层面的活性或任务(例如,“DNA结合”、“催化活性”、“转运蛋白活性”)。一个分子功能描述了“能做什么”,但不指定在何时、何地或为何发生。
生物学过程(英文:Biological Process, BP):描述由多个分子活动有序组合而实现的一个更大的生物目标或事件(例如,“有丝分裂”、“信号转导”、“细胞呼吸”)。
表1:基因本体论三大分支示例
| 本体分支 | 核心问题 | 示例术语 | 释义 |
|---|---|---|---|
| 细胞组件 (CC) | “在哪里活动?” | GO:0005739 线粒体 | 含有其自身基因组的双膜细胞器,是产生ATP的场所。 |
| 分子功能 (MF) | “在分子层面做什么?” | GO:0005524 ATP结合 | 选择性地与ATP分子非共价相互作用。 |
| 生物学过程 (BP) | “参与了什么更大的事件?” | GO:0006915 细胞凋亡 | 细胞自主决定并执行其死亡的程序性过程。 |
关键特征与组织方式
有向无环图结构(英文:Directed Acyclic Graph, DAG):GO术语并非简单列表,而是组织成一个层级网络(DAG)。每个术语可以有一个或多个父节点(更广泛、更通用)和子节点(更具体、更细化)。例如,“DNA修复”是“DNA代谢”的子项,同时又是“核苷酸切除修复”的父项。这允许从不同概括层次上查询和理解基因功能。
标准化标识符:每个GO术语都有一个唯一的、稳定的GO编号(格式如
GO:xxxxxxx)和一个人类可读的术语名称。明确的语义关系:术语之间的关系被精确定义,最主要的是:
is a:表示子项是父项的一个类型(例如,“丝氨酸型内肽酶活性”is a“内肽酶活性”)。part of:表示子项是父项的一个组成部分(例如,“核糖体大亚基”part of“核糖体”)。
应用:基因功能注释与富集分析
GO的核心价值在于其应用:
基因功能注释:全球多个联盟(如 UniProt、Ensembl、模型生物数据库)的专家和自动化系统,使用GO术语来描述特定基因或蛋白质的已知功能。一个基因通常会被赋予来自三个本体的多个GO术语,形成一个功能“概要”。
功能富集分析(英文:Functional enrichment analysis):这是GO最著名的应用。当研究者获得一组感兴趣的基因(如差异表达基因)后,他们想知道这组基因是否在特定功能类别上显著富集。
原理:通过统计检验(如超几何检验、Fisher精确检验),比较目标基因集中具有某个GO术语的基因比例,与整个基因组背景中该术语的基因比例。
结果:如果目标基因集在某个GO术语(如“炎症反应”)上的比例显著高于随机期望,则认为该功能类别与研究的生物学现象(如某疾病)相关。分析结果常用条形图或有向无环图可视化。
维护与获取
维护机构:由基因本体论联盟(英文:Gene Ontology Consortium)维护和更新,该联盟由全球多个生物数据库和科研团队组成。
获取方式:
官网:http://geneontology.org/ 可浏览、下载整个本体文件(OBO格式)和注释文件。
分析工具:许多生物信息学工具和平台(如DAVID、PANTHER、clusterProfiler、GOrilla、REVIGO)都集成了GO数据和分析功能。
数据库整合:几乎所有主要的基因和蛋白质数据库都提供GO注释信息。
意义与挑战
意义
标准化:提供了跨物种、跨数据库的统一功能描述语言,极大促进了数据整合与比较。
可计算性:结构化的本体使得计算机能够自动处理、推理和分析基因功能信息。
驱动发现:功能富集分析是阐释高通量组学数据(如转录组、蛋白质组)生物意义的标配步骤。
挑战与局限
注释不完整与偏差:许多基因(尤其是非模式生物基因)的功能尚未知,注释依赖于同源推断,可能存在误差。
动态更新:生物学知识在增长,GO需要不断更新以保持准确性。
富集分析结果解读:富集分析是关联性分析,不能直接证明因果关系,且结果可能受注释偏好和统计方法影响。
参考文献
The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334. (来自GO官方联盟的最新综述,介绍其资源现状与更新)
Ashburner, M., et al. (2000). Gene ontology: tool for the unification of biology. Nature Genetics, 25(1), 25–29. (基因本体论的奠基性论文,阐述了其创立的目标与原则)
Mi, H., Muruganujan, A., Ebert, D., Huang, X., & Thomas, P. D. (2019). PANTHER version 14: more genomes, a new PANTHER GO-slim and improvements in enrichment analysis tools. Nucleic Acids Research, 47(D1), D419–D426. (介绍了重要的GO分析工具和数据库PANTHER的更新)
Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287. (介绍了在R语言中广泛使用的GO富集分析工具clusterProfiler)
Rhee, S. Y., Wood, V., Dolinski, K., & Draghici, S. (2008). Use and misuse of the gene ontology annotations. Nature Reviews Genetics, 9(7), 509–515. (讨论了如何正确使用和避免误用GO注释的重要指南)
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
