BioGuider 生命百科  > 所属分类  >  生物信息学   

错误发现率

目录

核心定义编辑本段

错误发现率(False Discovery Rate, FDR)定义为被错误拒绝的零假设数V与总共被拒绝的零假设数R的期望比值,即 FDR = E[V / max(R, 1)]。其中,V是I型错误(假阳性)的数量,R是所有被拒绝的假设总数。FDR控制是一种相对宽松但实用的策略,它允许一定比例的发现是假阳性,但控制这个比例在一个可接受的阈值(如5%)以下。这与控制族错误率(Family-Wise Error Rate, FWER)不同,FWER要求在所有检验中至少出现一个假阳性的概率低于阈值,这在检验数极大时过于严格。

方法 控制目标 定义 适用场景 特点
错误发现率 错误发现的比例 E[V / max(R, 1)] 大规模探索性研究(如组学),可接受少量假阳性以换取更多发现 比FWER宽松,统计功效更高,是现代组学分析标准
族错误率 至少出现一个假阳性的概率 P(V ≥ 1) 确证性研究、临床试验,要求极低的总体假阳性风险 非常严格(如Bonferroni校正),在大规模检验中功效极低
每个比较的错误率 单个检验的错误率 每个检验的α水平 不控制整体误差,仅用于初步探索或可视化 不进行多重检验校正,假阳性风险随检验数激增

计算方法:本杰明尼-霍克伯格程序编辑本段

控制FDR最经典和广泛使用的程序如下:

  1. m 个独立(或正相关)的假设检验,计算每个检验的原始 p值
  2. 将所有 p 值按从小到大排序:p(1)p(2) ≤ ... ≤ p(m)
  3. 对于排序中第 i 个 p 值,计算其对应的 q值(或称为调整后p值):q(i) = min( minji ( m · p(j) / j ), 1 )。一种常见的等价操作是:对于每个排序的 p 值 p(i),计算 m · p(i) / i,然后从大到小进行调整确保单调性。
  4. 给定一个预设的FDR控制水平(如 α = 0.05),所有满足 q(i) ≤ α 的假设被拒绝(即声称发现显著)。
  5. 最终报告的 q值 即被认为是该检验的FDR估计值。例如,一个基因的 q值 = 0.03 意味着,在所有被声称与该基因一样或更显著的发现中,预期有 3% 是假阳性。

在生物信息学中的应用编辑本段

FDR控制是解读高通量生物学实验结果的基石:

  1. 差异表达分析:在RNA-Seq或微阵列数据分析中,同时对成千上万个基因进行差异表达检验。使用DESeq2、edgeR、limma等工具会输出每个基因的调整后p值(即q值)。研究者通常设定 FDR < 0.05(有时更严格如 < 0.01)作为筛选差异表达基因(Differentially Expressed Genes, DEGs)的阈值。
  2. 功能富集分析:在对GO、KEGG通路等进行富集分析时,同样需要对成百上千个功能类别进行多重检验,其结果也常用FDR进行校正。
  3. 全基因组关联分析:在检验数百万个SNP与表型的关联时,FDR也是常用的误差控制指标之一(尽管更严格的基因组范围显著性水平基于FWER)。
  4. 蛋白质组学代谢组学:在鉴定差异表达的蛋白质代谢物时,广泛应用FDR控制。

优势与局限性编辑本段

优势

  • 高统计功效:在大规模检验中,相比控制FWER的方法(如Bonferroni校正),FDR控制能在控制误差的同时,保留检测到真实信号的更强能力。
  • 直观的解释性:q值提供了对发现可靠性的直接、可操作的度量。研究者可以理解为“在声称显著的发现中,预期的假阳性比例”。

局限性

  • 对相关检验的敏感性:标准的BH程序假设检验独立或正相关。在检验高度负相关时,可能无法精确控制FDR。
  • 阈值选择的主观性:FDR阈值的设定(如0.05, 0.01, 0.1)取决于研究目标和可容忍的假阳性水平,需要研究者根据领域知识判断。
  • 依赖于p值的准确性:如果基础统计模型或p值计算不准确,FDR控制也将失效。
  • 非零的假阳性期望:与FWER不同,FDR明确允许假阳性的存在。

参考资料编辑本段

  • Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289–300.
  • Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences, 100(16), 9440-9445.
  • Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, 15(12), 550.
  • Korthauer, K., et al. (2019). A practical guide to methods controlling false discoveries in computational biology. Genome Biology, 20, 118.
  • Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850-857.
  • Benjamini, Y., & Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Annals of Statistics, 29(4), 1165-1188.
  • 陈希孺. (1997). 概率论与数理统计. 中国科学技术大学出版社.
  • Storey, J. D. (2002). A direct approach to false discovery rates. Journal of the Royal Statistical Society: Series B, 64(3), 479-498.

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 蛋白质结构域    下一篇 单细胞组学

同义词

暂无同义词