生物百科  > 所属分类  >  生物信息学   

错误发现率

错误发现率(英文:False Discovery Rate, FDR)是统计学和多重假设检验中的一种误差控制方法,用于量化在一组被拒绝的零假设(即声称发现显著效应)中,错误发现(即错误地拒绝了事实上为真的零假设,Ⅰ型错误)所占的期望比例。它由本杰明尼和霍克伯格于1995年提出,现已成为处理高通量数据(如基因组学、蛋白质组学、神经影像学)中大规模多重比较问题的标准方法。

核心定义

  • FDR = (被错误地声称显著的检验数) / (所有被声称显著的检验数) 的期望值。

    • 更精确地:FDR = E[V / max(R, 1)],其中V是被错误拒绝的零假设数,R是被拒绝的零假设总数。

  • FDR控制是一种相对宽松但实用的策略,它允许一定比例的发现是假阳性,但控制这个比例在一个可接受的阈值(如5%)以下。这与控制族错误率(英文:Family-Wise Error Rate, FWER)不同,FWER要求在所有检验中至少出现一个假阳性的概率低于阈值,这在检验数极大时过于严格。

表1:多重假设检验的不同误差控制方法比较

方法控制目标定义适用场景特点
错误发现率错误发现的比例E[V / max(R, 1)]大规模探索性研究(如组学),可接受少量假阳性以换取更多发现比FWER宽松,统计功效更高,是现代组学分析标准
族错误率至少出现一个假阳性的概率P(V ≥ 1)确证性研究、临床试验,要求极低的总体假阳性风险非常严格(如Bonferroni校正),在大规模检验中功效极低
每个比较的错误率单个检验的错误率每个检验的α水平不控制整体误差,仅用于初步探索或可视化不进行多重检验校正,假阳性风险随检验数激增

计算方法:本杰明尼-霍克伯格程序

控制FDR最经典和广泛使用的程序如下:

  1. 对 *m* 个独立(或正相关)的假设检验,计算每个检验的原始 p值

  2. 将所有 p 值按从小到大排序:p(1)p(2)...p(m)

  3. 对于排序中第 *i* 个 p 值,计算其对应的 q值(或称为调整后p值):q(i)=min(minji(mp(j)j),1)

    • 一种常见的等价操作是:对于每个排序的 p 值 p(i),计算 mp(i)i,然后从大到小进行调整确保单调性。

  4. 给定一个预设的FDR控制水平(如 α=0.05),所有满足 q(i)α 的假设被拒绝(即声称发现显著)。

  5. 最终报告的 q值 即被认为是该检验的FDR估计值。例如,一个基因的 q值 = 0.03 意味着,在所有被声称与该基因一样或更显著的发现中,预期有 3% 是假阳性。

在生物信息学中的应用

FDR控制是解读高通量生物学实验结果的基石:

  1. 差异表达分析:在RNA-Seq或微阵列数据分析中,同时对成千上万个基因进行差异表达检验。使用DESeq2、edgeR、limma等工具会输出每个基因的调整后p值(即q值)。研究者通常设定 FDR < 0.05(有时更严格如 < 0.01)作为筛选差异表达基因(英文:Differentially Expressed Genes, DEGs)的阈值。

  2. 功能富集分析:在对GO、KEGG通路等进行富集分析时,同样需要对成百上千个功能类别进行多重检验,其结果也常用FDR进行校正。

  3. 全基因组关联分析:在检验数百万个SNP与表型的关联时,FDR也是常用的误差控制指标之一(尽管更严格的基因组范围显著性水平基于FWER)。

  4. 蛋白质组学与代谢组学:在鉴定差异表达的蛋白质或代谢物时,广泛应用FDR控制。

优势与局限性

优势

  • 高统计功效:在大规模检验中,相比控制FWER的方法(如Bonferroni校正),FDR控制能在控制误差的同时,保留检测到真实信号的更强能力。

  • 直观的解释性:q值提供了对发现可靠性的直接、可操作的度量。研究者可以理解为“在声称显著的发现中,预期的假阳性比例”。

局限性

  • 对相关检验的敏感性:标准的BH程序假设检验独立或正相关。在检验高度负相关时,可能无法精确控制FDR。

  • 阈值选择的主观性:FDR阈值的设定(如0.05, 0.01, 0.1)取决于研究目标和可容忍的假阳性水平,需要研究者根据领域知识判断。

  • 依赖于p值的准确性:如果基础统计模型或p值计算不准确,FDR控制也将失效。

  • 非零的假阳性期望:与FWER不同,FDR明确允许假阳性的存在。

参考文献

  1. Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289–300. (提出FDR和BH校正方法的开创性论文)

  2. Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences, 100(16), 9440-9445. (提出了基于p值分布的FDR估计方法(Storey’s q-value),在许多工具中作为备选或默认方法)

  3. Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, 15(12), 550. (在差异表达分析工具DESeq2的方法学论文中,明确使用FDR(调整后p值)作为报告显著性的标准)

  4. Korthauer, K., et al. (2019). A practical guide to methods controlling false discoveries in computational biology. Genome Biology, 20, 118. (一篇关于如何在生物信息学中应用不同FDR控制方法的实用指南)

  5. Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850-857. (在临床流行病学领域倡导使用FDR而非Bonferroni校正的论述,其原理同样适用于生物信息学)

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 蛋白质结构域    下一篇 单细胞组学

关键词

暂无关键词

同义词

暂无同义词