功能富集分析
功能富集分析(英文:Functional enrichment analysis)是一种广泛应用于高通量组学数据的生物信息学方法,旨在从一组感兴趣的基因(或蛋白质、代谢物等)列表中,识别出在特定生物学功能类别或通路中过度呈现(即“富集”)的统计学显著模式。其核心假设是:如果一组基因在与特定生物学主题相关的功能类别中非随机地集中出现,那么该功能很可能与产生这组基因列表的底层生物学现象(如疾病、处理条件、表型)密切相关。
核心原理与目标
输入:一个“基因列表”(如差异表达基因、GWAS显著位点关联基因、蛋白质互作网络中的枢纽基因)。
参照背景:一个合适的“背景基因集”,通常为整个基因组、转录组或实验检测到的所有基因。
功能类别:预定义的基因集合,通常基于:
基因本体论(英文:Gene Ontology, GO)术语(生物学过程、分子功能、细胞组件)。
生物学通路(如KEGG、Reactome、WikiPathways)。
蛋白质结构域(Pfam)。
调控因子靶标(如转录因子、miRNA靶基因集)。
疾病关联或表型相关基因集。
输出:一系列显著富集的功能类别及其统计学显著性度量(如p值、q值),帮助研究者从功能层面解读高通量数据。
主要方法类型
1. 超几何检验 / Fisher精确检验
原理:最经典的方法。构建一个2x2列联表,比较在目标基因列表和背景基因集中,属于某个功能类别的基因数量。通过超几何分布计算观察到至少同样多基因落入该类别的概率(p值)。
优点:简单直观,计算速度快。
工具:DAVID, g:Profiler, clusterProfiler中的
enrichGO函数。
2. 基因集富集分析(英文:Gene Set Enrichment Analysis, GSEA)
原理:由 Broad Institute 提出。不依赖于预先设定的显著性阈值来筛选基因列表。而是将所有基因(通常根据其与表型的关联度,如差异表达倍数)进行排序,然后检验预定义的基因集是否在该排序列表的顶部或底部非随机地聚集。
优点:能发现那些基因表达变化幅度不大但协调一致的微弱信号,且无需硬性阈值。
工具:GSEA软件(Java),
fgseaR包。
3. 其他方法
逻辑回归/线性模型:将基因是否属于目标列表作为因变量,将功能类别作为预测变量,同时校正基因长度、表达水平等混杂因素。
网络扩展方法:结合蛋白质相互作用网络信息,考虑基因间的关联性。
表1:主流功能富集分析方法比较
| 方法 | 核心思想 | 输入要求 | 主要优势 | 常用工具 |
|---|---|---|---|---|
| 超几何/Fisher检验 | 检验功能类别在目标列表中的比例是否显著高于背景 | 目标基因列表,背景基因集 | 简单、快速,适合清晰定义的基因列表 | DAVID, clusterProfiler |
| GSEA | 检验预定义的基因集在全局基因排序列表的极端位置是否富集 | 所有基因的排序列表(如按log2FC) | 无需阈值,能捕捉微弱协调变化 | GSEA软件, fgsea |
| ORA | 超几何检验的广义形式,常与之等同 | 同超几何检验 | 应用广泛,易于理解 | 众多在线工具 |
标准分析流程
获取目标基因列表:例如,从差异表达分析中获取FDR < 0.05且 |log₂FC| > 1的基因。
选择背景基因集:通常为表达谱检测到的所有基因,或该物种的全基因组基因。
选择功能注释数据库:如GO、KEGG。
执行富集分析:使用上述任一方法计算每个功能类别的富集显著性。
多重检验校正:对数百至数千个功能类别同时进行检验,必须进行多重检验校正以控制假阳性。常用错误发现率(英文:False Discovery Rate, FDR,即校正后的q值)。通常认为FDR < 0.05为显著富集。
结果可视化与解释:
条形图:展示最显著富集的功能类别及其富集分数。
气泡图:同时展示显著性(-log₁₀(p值))和富集强度(基因比例或富集比)。
有向无环图:展示显著GO术语之间的层级关系。
通路图:将富集基因映射到KEGG等通路图上。
应用场景
转录组/蛋白质组学:解读差异表达基因/蛋白质的功能倾向。
基因组学:解释GWAS或测序发现的候选基因集合。
药物研发:分析药物作用靶点或药效相关基因涉及的通路。
单细胞组学:识别不同细胞亚群的特异性功能特征。
挑战与注意事项
背景基因集选择:不恰当的背景集(如使用全基因组而非检测到的基因)会导致偏倚。
多重检验校正:严格的校正可能导致假阴性,需平衡灵敏度和特异度。
功能类别冗余:GO等本体中高度相关的功能类别可能同时富集,需进行去冗余分析(如使用REVIGO)。
间接关联:富集分析仅提示相关性,而非因果性。富集的功能可能是上游或下游效应。
物种特异性:通路和功能注释在模式生物中更完善,应用于非模式生物时需谨慎。
常用软件与数据库
在线工具:DAVID, g:Profiler, Metascape, Enrichr。
R包:
clusterProfiler(全面且流行),fgsea,topGO。数据库:Gene Ontology, MSigDB(GSEA的基因集库), KEGG, Reactome。
参考文献
Subramanian, A., et al. (2005). Gene set enrichment analysis: A knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences, 102(43), 15545-15550. (GSEA方法的奠基性论文)
Huang, D. W., Sherman, B. T., & Lempicki, R. A. (2009). Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols, 4(1), 44-57. (介绍了经典富集分析工具DAVID的使用与原理)
Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287. (介绍了目前最流行的R语言富集分析工具)
Korotkevich, G., et al. (2021). Fast gene set enrichment analysis. bioRxiv. (提出了快速GSEA算法fgsea的预印本,已被广泛引用)
The Gene Ontology Consortium. (2021). The Gene Ontology resource: enriching a GOld mine. Nucleic Acids Research, 49(D1), D325–D334. (提供了功能富集分析所依赖的核心本体和注释资源)
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
