生物行•生命百科  > 所属分类  >  生物信息学   

功能富集分析

目录

核心原理与目标编辑本段

  • 输入:一个“基因列表”(如差异表达基因、GWAS显著位点关联基因、蛋白质互作网络中的枢纽基因)。

    ADFASDFAF23RQ23R

  • 参照背景:一个合适的“背景基因集”,通常为整个基因组转录组或实验检测到的所有基因。 ADFASDFAF23RQ23R

  • 功能类别:预定义的基因集合,通常基于: ADFASDFAF23RQ23R

  • 输出:一系列显著富集的功能类别及其统计学显著性度量(如p值、q值),帮助研究者从功能层面解读高通量数据。 ADSFAEQWER353423413434

主要方法类型编辑本段

1. 超几何检验 / Fisher精确检验

  • 原理:最经典的方法。构建一个2x2列联表,比较在目标基因列表和背景基因集中,属于某个功能类别的基因数量。通过超几何分布计算观察到至少同样多基因落入该类别的概率(p值)。

    ADFASDFAF23RQ23R

  • 优点:简单直观,计算速度快。 ADSFAEQWER353423413434

  • 工具:DAVID, g:Profiler, clusterProfiler中的enrichGO函数。 ADFASDFAF23RQ23R

2. 基因集富集分析(Gene Set Enrichment Analysis, GSEA)

  • 原理:由 Broad Institute 提出。不依赖于预先设定的显著性阈值来筛选基因列表。而是将所有基因(通常根据其与表型的关联度,如差异表达倍数)进行排序,然后检验预定义的基因集是否在该排序列表的顶部或底部非随机地聚集。 ADFASDFAF23RQ23R

  • 优点:能发现那些基因表达变化幅度不大但协调一致的微弱信号,且无需硬性阈值。 ADFASDFAF23RQ23R

  • 工具:GSEA软件(Java),fgsea R包。

    ADSFAEQWER353423413434

3. 其他方法

  • 逻辑回归/线性模型:将基因是否属于目标列表作为因变量,将功能类别作为预测变量,同时校正基因长度、表达水平等混杂因素。 ADFASDFAF23RQ23R

  • 网络扩展方法:结合蛋白质相互作用网络信息,考虑基因间的关联性。 ADSFAEQWER353423413434

表1:主流功能富集分析方法比较

ADSFAEQWER353423413434

方法核心思想输入要求主要优势常用工具
超几何/Fisher检验检验功能类别在目标列表中的比例是否显著高于背景目标基因列表,背景基因集简单、快速,适合清晰定义的基因列表DAVID, clusterProfiler
GSEA检验预定义的基因集在全局基因排序列表的极端位置是否富集所有基因的排序列表(如按log2FC)无需阈值,能捕捉微弱协调变化GSEA软件, fgsea
ORA超几何检验的广义形式,常与之等同同超几何检验应用广泛,易于理解众多在线工具

标准分析流程编辑本段

  1. 获取目标基因列表:例如,从差异表达分析中获取FDR < 0.05且 |log₂FC| > 1的基因。 ADFASDFAF23RQ23R

  2. 选择背景基因集:通常为表达谱检测到的所有基因,或该物种的全基因组基因。

    ADSFAEQWER353423413434

  3. 选择功能注释数据库:如GO、KEGG。

    ADSFAEQWER353423413434

  4. 执行富集分析:使用上述任一方法计算每个功能类别的富集显著性。 ADFASDFAF23RQ23R

  5. 多重检验校正:对数百至数千个功能类别同时进行检验,必须进行多重检验校正以控制假阳性。常用错误发现率(False Discovery Rate, FDR,即校正后的q值)。通常认为FDR < 0.05为显著富集。 ADSFAEQWER353423413434

  6. 结果可视化与解释

    ADFASDFAF23RQ23R

    • 条形图:展示最显著富集的功能类别及其富集分数。
    • 气泡图:同时展示显著性(-log₁₀(p值))和富集强度(基因比例或富集比)。
    • 有向无环图:展示显著GO术语之间的层级关系。
    • 通路图:将富集基因映射到KEGG等通路图上。

应用场景编辑本段

挑战与注意事项编辑本段

  • 背景基因集选择:不恰当的背景集(如使用全基因组而非检测到的基因)会导致偏倚 ADSFAEQWER353423413434

  • 多重检验校正:严格的校正可能导致假阴性,需平衡灵敏度和特异度。 ADFASDFAF23RQ23R

  • 功能类别冗余:GO等本体中高度相关的功能类别可能同时富集,需进行去冗余分析(如使用REVIGO)。 ADSFAEQWER353423413434

  • 间接关联:富集分析仅提示相关性,而非因果性。富集的功能可能是上游或下游效应。

    ADSFAEQWER353423413434

  • 物种特异性:通路和功能注释在模式生物中更完善,应用于非模式生物时需谨慎。

    ADSFAEQWER353423413434

常用软件与数据库编辑本段

  • 在线工具:DAVID, g:Profiler, Metascape, Enrichr。 ADSFAEQWER353423413434

  • R包clusterProfiler(全面且流行),fgseatopGOADFASDFAF23RQ23R

  • 数据库:Gene Ontology, MSigDB(GSEA的基因集库), KEGG, Reactome。

    ADSFAEQWER353423413434

参考资料编辑本段

  • Subramanian, A., et al. (2005). Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 102(43), 15545-15550.
  • Huang, D. W., Sherman, B. T., & Lempicki, R. A. (2009). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols, 4(1), 44-57.
  • Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287.
  • Korotkevich, G., et al. (2021). Fast gene set enrichment analysis. bioRxiv.
  • The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334.
  • Ashburner, M., et al. (2000). Gene ontology: tool for the unification of biology. Nature Genetics, 25(1), 25-29.
  • Kanehisa, M., & Goto, S. (2000). KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Research, 28(1), 27-30.
  • Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863-14868.
  • Alexa, A., & Rahnenführer, J. (2021). topGO: Enrichment Analysis for Gene Ontology. R package version 2.46.0.

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 生物学过程    下一篇 错误发现率