顶[0] 分享评论[0] 编辑

错误发现率

错误发现率（英文：False Discovery Rate， FDR）是统计学和多重假设检验中的一种误差控制方法，用于量化在一组被拒绝的零假设（即声称发现显著效应）中，错误发现（即错误地拒绝了事实上为真的零假设，Ⅰ型错误）所占的期望比例。它由本杰明尼和霍克伯格于1995年提出，现已成为处理高通量数据（如基因组学、蛋白质组学、神经影像学）中大规模多重比较问题的标准方法。

核心定义

FDR = （被错误地声称显著的检验数） / （所有被声称显著的检验数）的期望值。
- 更精确地：FDR = E[V / max(R, 1)]，其中V是被错误拒绝的零假设数，R是被拒绝的零假设总数。
FDR控制是一种相对宽松但实用的策略，它允许一定比例的发现是假阳性，但控制这个比例在一个可接受的阈值（如5%）以下。这与控制族错误率（英文：Family-Wise Error Rate， FWER）不同，FWER要求在所有检验中至少出现一个假阳性的概率低于阈值，这在检验数极大时过于严格。

表1：多重假设检验的不同误差控制方法比较

方法	控制目标	定义	适用场景	特点
错误发现率	错误发现的比例	E[V / max(R, 1)]	大规模探索性研究（如组学），可接受少量假阳性以换取更多发现	比FWER宽松，统计功效更高，是现代组学分析标准
族错误率	至少出现一个假阳性的概率	P(V ≥ 1)	确证性研究、临床试验，要求极低的总体假阳性风险	非常严格（如Bonferroni校正），在大规模检验中功效极低
每个比较的错误率	单个检验的错误率	每个检验的α水平	不控制整体误差，仅用于初步探索或可视化	不进行多重检验校正，假阳性风险随检验数激增

计算方法：本杰明尼-霍克伯格程序

控制FDR最经典和广泛使用的程序如下：

对 *m* 个独立（或正相关）的假设检验，计算每个检验的原始 p值。
将所有 p 值按从小到大排序： $p_{(1)} \leq p_{(2)} \leq . . . \leq p_{(m)}$ 。
对于排序中第 *i* 个 p 值，计算其对应的 q值（或称为调整后p值）： $q_{(i)} = \min (\min_{j \geq i} (\frac{m \cdot p_{(j)}}{j}), 1)$ 。
- 一种常见的等价操作是：对于每个排序的 p 值 $p_{(i)}$ ，计算 $\frac{m \cdot p_{(i)}}{i}$ ，然后从大到小进行调整确保单调性。
给定一个预设的FDR控制水平（如 α=0.05），所有满足 $q_{(i)} \leq α$ 的假设被拒绝（即声称发现显著）。
最终报告的 q值即被认为是该检验的FDR估计值。例如，一个基因的 q值 = 0.03 意味着，在所有被声称与该基因一样或更显著的发现中，预期有 3% 是假阳性。

在生物信息学中的应用

FDR控制是解读高通量生物学实验结果的基石：

差异表达分析：在RNA-Seq或微阵列数据分析中，同时对成千上万个基因进行差异表达检验。使用DESeq2、edgeR、limma等工具会输出每个基因的调整后p值（即q值）。研究者通常设定 FDR < 0.05（有时更严格如 < 0.01）作为筛选差异表达基因（英文：Differentially Expressed Genes， DEGs）的阈值。
功能富集分析：在对GO、KEGG通路等进行富集分析时，同样需要对成百上千个功能类别进行多重检验，其结果也常用FDR进行校正。
全基因组关联分析：在检验数百万个SNP与表型的关联时，FDR也是常用的误差控制指标之一（尽管更严格的基因组范围显著性水平基于FWER）。
蛋白质组学与代谢组学：在鉴定差异表达的蛋白质或代谢物时，广泛应用FDR控制。

优势与局限性

优势

高统计功效：在大规模检验中，相比控制FWER的方法（如Bonferroni校正），FDR控制能在控制误差的同时，保留检测到真实信号的更强能力。
直观的解释性：q值提供了对发现可靠性的直接、可操作的度量。研究者可以理解为“在声称显著的发现中，预期的假阳性比例”。

局限性

对相关检验的敏感性：标准的BH程序假设检验独立或正相关。在检验高度负相关时，可能无法精确控制FDR。
阈值选择的主观性：FDR阈值的设定（如0.05, 0.01, 0.1）取决于研究目标和可容忍的假阳性水平，需要研究者根据领域知识判断。
依赖于p值的准确性：如果基础统计模型或p值计算不准确，FDR控制也将失效。
非零的假阳性期望：与FWER不同，FDR明确允许假阳性的存在。

参考文献

Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289–300. （提出FDR和BH校正方法的开创性论文）
Storey, J. D., & Tibshirani, R. (2003). Statistical significance for genomewide studies. Proceedings of the National Academy of Sciences, 100(16), 9440-9445. （提出了基于p值分布的FDR估计方法（Storey’s q-value），在许多工具中作为备选或默认方法）
Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biology, 15(12), 550. （在差异表达分析工具DESeq2的方法学论文中，明确使用FDR（调整后p值）作为报告显著性的标准）
Korthauer, K., et al. (2019). A practical guide to methods controlling false discoveries in computational biology. Genome Biology, 20, 118. （一篇关于如何在生物信息学中应用不同FDR控制方法的实用指南）
Glickman, M. E., Rao, S. R., & Schultz, M. R. (2014). False discovery rate control is a recommended alternative to Bonferroni-type adjustments in health studies. Journal of Clinical Epidemiology, 67(8), 850-857. （在临床流行病学领域倡导使用FDR而非Bonferroni校正的论述，其原理同样适用于生物信息学）

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑