功能富集分析
核心原理与目标编辑本段
主要方法类型编辑本段
1. 超几何检验 / Fisher精确检验
原理:最经典的方法。构建一个2x2列联表,比较在目标基因列表和背景基因集中,属于某个功能类别的基因数量。通过超几何分布计算观察到至少同样多基因落入该类别的概率(p值)。
ADFASDFAF23RQ23R
优点:简单直观,计算速度快。 ADSFAEQWER353423413434
工具:DAVID, g:Profiler, clusterProfiler中的
enrichGO函数。 ADFASDFAF23RQ23R
2. 基因集富集分析(Gene Set Enrichment Analysis, GSEA)
原理:由 Broad Institute 提出。不依赖于预先设定的显著性阈值来筛选基因列表。而是将所有基因(通常根据其与表型的关联度,如差异表达倍数)进行排序,然后检验预定义的基因集是否在该排序列表的顶部或底部非随机地聚集。 ADFASDFAF23RQ23R
工具:GSEA软件(Java),
fgseaR包。ADSFAEQWER353423413434
3. 其他方法
表1:主流功能富集分析方法比较
| 方法 | 核心思想 | 输入要求 | 主要优势 | 常用工具 |
|---|---|---|---|---|
| 超几何/Fisher检验 | 检验功能类别在目标列表中的比例是否显著高于背景 | 目标基因列表,背景基因集 | 简单、快速,适合清晰定义的基因列表 | DAVID, clusterProfiler |
| GSEA | 检验预定义的基因集在全局基因排序列表的极端位置是否富集 | 所有基因的排序列表(如按log2FC) | 无需阈值,能捕捉微弱协调变化 | GSEA软件, fgsea |
| ORA | 超几何检验的广义形式,常与之等同 | 同超几何检验 | 应用广泛,易于理解 | 众多在线工具 |
标准分析流程编辑本段
获取目标基因列表:例如,从差异表达分析中获取FDR < 0.05且 |log₂FC| > 1的基因。 ADFASDFAF23RQ23R
选择背景基因集:通常为表达谱检测到的所有基因,或该物种的全基因组基因。
ADSFAEQWER353423413434
选择功能注释数据库:如GO、KEGG。
ADSFAEQWER353423413434执行富集分析:使用上述任一方法计算每个功能类别的富集显著性。 ADFASDFAF23RQ23R
多重检验校正:对数百至数千个功能类别同时进行检验,必须进行多重检验校正以控制假阳性。常用错误发现率(False Discovery Rate, FDR,即校正后的q值)。通常认为FDR < 0.05为显著富集。 ADSFAEQWER353423413434
结果可视化与解释:
ADFASDFAF23RQ23R- 条形图:展示最显著富集的功能类别及其富集分数。
- 气泡图:同时展示显著性(-log₁₀(p值))和富集强度(基因比例或富集比)。
- 有向无环图:展示显著GO术语之间的层级关系。
- 通路图:将富集基因映射到KEGG等通路图上。
应用场景编辑本段
挑战与注意事项编辑本段
背景基因集选择:不恰当的背景集(如使用全基因组而非检测到的基因)会导致偏倚。 ADSFAEQWER353423413434
多重检验校正:严格的校正可能导致假阴性,需平衡灵敏度和特异度。 ADFASDFAF23RQ23R
功能类别冗余:GO等本体中高度相关的功能类别可能同时富集,需进行去冗余分析(如使用REVIGO)。 ADSFAEQWER353423413434
间接关联:富集分析仅提示相关性,而非因果性。富集的功能可能是上游或下游效应。
ADSFAEQWER353423413434
物种特异性:通路和功能注释在模式生物中更完善,应用于非模式生物时需谨慎。
ADSFAEQWER353423413434
常用软件与数据库编辑本段
在线工具:DAVID, g:Profiler, Metascape, Enrichr。 ADSFAEQWER353423413434
R包:
clusterProfiler(全面且流行),fgsea,topGO。 ADFASDFAF23RQ23R数据库:Gene Ontology, MSigDB(GSEA的基因集库), KEGG, Reactome。
ADSFAEQWER353423413434
参考资料编辑本段
- Subramanian, A., et al. (2005). Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 102(43), 15545-15550.
- Huang, D. W., Sherman, B. T., & Lempicki, R. A. (2009). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols, 4(1), 44-57.
- Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287.
- Korotkevich, G., et al. (2021). Fast gene set enrichment analysis. bioRxiv.
- The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334.
- Ashburner, M., et al. (2000). Gene ontology: tool for the unification of biology. Nature Genetics, 25(1), 25-29.
- Kanehisa, M., & Goto, S. (2000). KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Research, 28(1), 27-30.
- Eisen, M. B., Spellman, P. T., Brown, P. O., & Botstein, D. (1998). Cluster analysis and display of genome-wide expression patterns. Proceedings of the National Academy of Sciences, 95(25), 14863-14868.
- Alexa, A., & Rahnenführer, J. (2021). topGO: Enrichment Analysis for Gene Ontology. R package version 2.46.0.
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
