生物百科  > 所属分类  >  分子生物学    生物信息学   

基因本体论

基因本体论(英文:Gene Ontology, GO)是一个全球范围内广泛使用的、标准化的生物信息学(英文:Bioinformatics)资源与知识库。它旨在统一地描述任何生物体中基因及其产物(如蛋白质、非编码RNA)的功能(英文:Function)。GO并非一个基因列表或数据库,而是一个结构化的、受控的词汇表(本体),用于注释基因功能,并支持大规模的功能组学数据分析。

核心结构与组成

GO系统由三个独立但相互关联的本体(英文:Ontologies)组成,分别从不同维度描述基因产物的属性:

  1. 细胞组件(英文:Cellular Component, CC):描述基因产物在细胞内发挥作用的具体位置(例如,“细胞核”、“核糖体”、“质膜”)。这可以是亚细胞结构或大分子复合物。

  2. 分子功能(英文:Molecular Function, MF):描述基因产物在分子层面的活性或任务(例如,“DNA结合”、“催化活性”、“转运蛋白活性”)。一个分子功能描述了“能做什么”,但不指定在何时、何地或为何发生。

  3. 生物学过程(英文:Biological Process, BP):描述由多个分子活动有序组合而实现的一个更大的生物目标或事件(例如,“有丝分裂”、“信号转导”、“细胞呼吸”)。

表1:基因本体论三大分支示例

本体分支核心问题示例术语释义
细胞组件 (CC)“在哪里活动?”GO:0005739 线粒体含有其自身基因组的双膜细胞器,是产生ATP的场所。
分子功能 (MF)“在分子层面做什么?”GO:0005524 ATP结合选择性地与ATP分子非共价相互作用。
生物学过程 (BP)“参与了什么更大的事件?”GO:0006915 细胞凋亡细胞自主决定并执行其死亡的程序性过程。

关键特征与组织方式

  1. 有向无环图结构(英文:Directed Acyclic Graph, DAG):GO术语并非简单列表,而是组织成一个层级网络(DAG)。每个术语可以有一个或多个父节点(更广泛、更通用)和子节点(更具体、更细化)。例如,“DNA修复”是“DNA代谢”的子项,同时又是“核苷酸切除修复”的父项。这允许从不同概括层次上查询和理解基因功能。

  2. 标准化标识符:每个GO术语都有一个唯一的、稳定的GO编号(格式如GO:xxxxxxx)和一个人类可读的术语名称。

  3. 明确的语义关系:术语之间的关系被精确定义,最主要的是:

    • is a:表示子项是父项的一个类型(例如,“丝氨酸型内肽酶活性” is a “内肽酶活性”)。

    • part of:表示子项是父项的一个组成部分(例如,“核糖体大亚基” part of “核糖体”)。

应用:基因功能注释与富集分析

GO的核心价值在于其应用:

  1. 基因功能注释:全球多个联盟(如 UniProt、Ensembl、模型生物数据库)的专家和自动化系统,使用GO术语来描述特定基因或蛋白质的已知功能。一个基因通常会被赋予来自三个本体的多个GO术语,形成一个功能“概要”。

  2. 功能富集分析(英文:Functional enrichment analysis):这是GO最著名的应用。当研究者获得一组感兴趣的基因(如差异表达基因)后,他们想知道这组基因是否在特定功能类别上显著富集。

    • 原理:通过统计检验(如超几何检验、Fisher精确检验),比较目标基因集中具有某个GO术语的基因比例,与整个基因组背景中该术语的基因比例。

    • 结果:如果目标基因集在某个GO术语(如“炎症反应”)上的比例显著高于随机期望,则认为该功能类别与研究的生物学现象(如某疾病)相关。分析结果常用条形图有向无环图可视化。

维护与获取

  • 维护机构:由基因本体论联盟(英文:Gene Ontology Consortium)维护和更新,该联盟由全球多个生物数据库和科研团队组成。

  • 获取方式

    • 官网:http://geneontology.org/ 可浏览、下载整个本体文件(OBO格式)和注释文件。

    • 分析工具:许多生物信息学工具和平台(如DAVID、PANTHER、clusterProfiler、GOrilla、REVIGO)都集成了GO数据和分析功能。

    • 数据库整合:几乎所有主要的基因和蛋白质数据库都提供GO注释信息。

意义与挑战

意义

  • 标准化:提供了跨物种、跨数据库的统一功能描述语言,极大促进了数据整合与比较。

  • 可计算性:结构化的本体使得计算机能够自动处理、推理和分析基因功能信息。

  • 驱动发现:功能富集分析是阐释高通量组学数据(如转录组、蛋白质组)生物意义的标配步骤。

挑战与局限

  • 注释不完整与偏差:许多基因(尤其是非模式生物基因)的功能尚未知,注释依赖于同源推断,可能存在误差。

  • 动态更新:生物学知识在增长,GO需要不断更新以保持准确性。

  • 富集分析结果解读:富集分析是关联性分析,不能直接证明因果关系,且结果可能受注释偏好和统计方法影响。

参考文献

  1. The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334. (来自GO官方联盟的最新综述,介绍其资源现状与更新)

  2. Ashburner, M., et al. (2000). Gene ontology: tool for the unification of biology. Nature Genetics, 25(1), 25–29. (基因本体论的奠基性论文,阐述了其创立的目标与原则)

  3. Mi, H., Muruganujan, A., Ebert, D., Huang, X., & Thomas, P. D. (2019). PANTHER version 14: more genomes, a new PANTHER GO-slim and improvements in enrichment analysis tools. Nucleic Acids Research, 47(D1), D419–D426. (介绍了重要的GO分析工具和数据库PANTHER的更新)

  4. Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287. (介绍了在R语言中广泛使用的GO富集分析工具clusterProfiler)

  5. Rhee, S. Y., Wood, V., Dolinski, K., & Draghici, S. (2008). Use and misuse of the gene ontology annotations. Nature Reviews Genetics, 9(7), 509–515. (讨论了如何正确使用和避免误用GO注释的重要指南)

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 差异表达分析    下一篇 生物学重复

关键词

暂无关键词

同义词

暂无同义词