生物行•生命百科  > 所属分类  >  生物统计学   

统计显著性

目录

核心概念与流程编辑本段

1. 假设检验框架

统计显著性检验通常遵循以下标准步骤:

ADSFAEQWER353423413434

  • 设定假设
    • 零假设(Null hypothesis, H₀):通常假设没有效应、没有差异或没有关联(例如,“实验组与对照组的均值相等”)。
    • 备择假设(Alternative hypothesis, H₁或Hₐ):假设存在效应、差异或关联。
  • 选择检验方法并计算检验统计量:根据数据类型和研究设计,选择合适的统计检验(如t检验、卡方检验方差分析、线性回归系数检验等),并计算出一个检验统计量(如t值、χ²值、F值)。
  • 计算p值
    • 定义:在零假设为真的前提下,获得与观测数据同样极端或更极端结果的概率。
    • 解读:一个极小的p值(如0.01)意味着,如果零假设是真的,那么观察到当前数据(或更极端数据)的可能性很低。这为拒绝零假设提供了证据。
  • 与显著性水平比较并做出决策
    • 研究者预先设定一个显著性水平(Significance level),用希腊字母α表示,常用值为0.05或0.01。
    • 如果 p值 ≤ α,则结果被认为在统计上是显著的,并拒绝零假设。
    • 如果 p值 > α,则结果被认为在统计上不显著,无法拒绝零假设(注意:这不等于接受零假设)。

2. 关键指标:p值

p值是统计显著性的核心量化指标。 ADFASDFAF23RQ23R

  • 常见阈值:α = 0.05。当p < 0.05时,常表述为“结果在0.05水平上显著”。
  • 符号表示:在科学文献中,常用星号(*)表示显著性水平:* (p < 0.05), (p < 0.01), * (p < 0.001)。

在生物信息学与高通量研究中的应用与挑战编辑本段

应用

挑战与误用

在高通量生物学时代,对统计显著性的理解和应用面临特殊挑战:

ADSFAEQWER353423413434

  • 多重比较问题(Multiple comparisons problem):
    • 问题:当对成千上万个特征(如基因、SNP)同时进行检验时,即使所有零假设都为真,仅凭随机性也会有大量检验的p值小于0.05。例如,检验20,000个基因,即使没有真实差异,也预期会有1,000个基因“显著”(20,000 × 0.05)。
    • 解决方法:必须进行多重检验校正,控制整体误差。常用方法包括控制族错误率(如邦弗朗尼校正)或更常用的控制错误发现率(如本杰明尼-霍克伯格方法)。
  • p值 ≠ 效应大小:一个非常小的p值可能来自微小的效应但样本量极大的研究。反之,一个较大的p值可能来自效应很大但样本量很小的研究。必须同时报告置信区间或效应大小(如倍数变化、相关系数)。
  • p值 ≠ 科学重要性:统计显著性不能替代生物学意义。一个在统计上显著的微小变化可能没有实际科学价值
  • “p-hacking”:通过反复尝试不同的数据分析方法(如选择不同协变量、离群值处理方式)直到获得p < 0.05,这会严重增加假阳性风险。
  • 二分法思维:过度依赖“p < 0.05”的二元决策,忽视了证据的连续性。

表1:与统计显著性相关的关键概念

ADSFAEQWER353423413434

概念描述与统计显著性的关系
p值在零假设下,获得观测数据或更极端数据的概率。直接用于判断显著性的数值。
显著性水平 (α)预设的拒绝零假设的阈值(通常为0.05)。p值的比较标准。
效应大小观察到的效应或差异的实际量级(如Cohen's d,风险比)。独立于p值,需与p值同时报告
统计功效当备择假设为真时,正确拒绝零假设的概率(1 - β)。影响获得显著结果的可能性。
置信区间对总体参数(如均值差)可能取值范围的估计提供效应大小的估计及其不确定性,优于单一的p值。

现代实践与建议编辑本段

针对上述问题,现代科学实践强调:

ADSFAEQWER353423413434

  • 报告效应大小与置信区间:美国统计协会等组织强烈建议停止仅报告p值。
  • 预先注册研究方案:公开分析计划,避免p-hacking。
  • 使用更严格的阈值:在探索性高通量研究中,常使用FDR校正后的q值 < 0.05或更低作为标准。
  • 关注可重复:统计显著性结果必须在独立数据集中得到重复验证。

参考资料编辑本段

  • Fisher, R. A. (1925). Statistical Methods for Research Workers. Oliver and Boyd.
  • Neyman, J., & Pearson, E. S. (1933). On the Problem of the Most Efficient Tests of Statistical Hypotheses. Philosophical Transactions of the Royal Society A, 231(694-706), 289-337.
  • Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B (Methodological), 57(1), 289–300.
  • Wasserstein, R. L., & Lazar, N. A. (2016). The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129-133.
  • Ioannidis, J. P. A. (2005). Why Most Published Research Findings Are False. PLoS Medicine, 2(8), e124.
  • Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997-1003.
  • Goodman, S. (2008). A dirty dozen: twelve p-value misconceptions. Seminars in Hematology, 45(3), 135-140.
  • 张尧庭, & 方开泰. (1982). 多元统计分析引论. 科学出版社.
  • 盛骤, 谢式千, & 潘承毅. (2008). 概率论与数理统计(第四版). 高等教育出版社.

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 族错误率    下一篇 系统误差