BioGuider生命百科  > 所属分类  >  遗传学   

连锁不平衡

目录

定义与基本概念编辑本段

连锁不平衡
连锁不平衡

连锁不平衡(Linkage disequilibrium, LD)是群体遗传学中描述不同基因座(loci)上的等位基因之间非随机关联的核心概念。在随机交配的理想群体中,不同位点上的等位基因应独立组合,此时称这些位点处于连锁平衡(linkage equilibrium)。然而,现实群体中由于多种进化力量的作用,实际观察到的单倍型频率往往偏离随机期望,这种偏离即为连锁不平衡。

具体而言,考虑两个双等位基因位点A和B,其等位基因分别为A/a和B/b。设等位基因频率为p_A、p_a、p_B、p_b,单倍型频率为p_AB、p_Ab、p_aB、p_ab。在连锁平衡下,p_AB = p_A × p_B。LD定义为实际单倍型频率与随机期望的差值:D = p_AB - p_A p_B。D值可为正或负,反映了特定等位基因组合的过表达或低表达。

LD的度量指标编辑本段

为了在不同位点间进行比较和统计检验,发展了多种标准化度量指标。最常见的是标准化不平衡系数D'和相关系数r²。

D' 的定义为:D' = D / D_max,其中D_max是D可能达到的最大值(当D>0时,D_max = min(p_A p_b, p_a p_B);当D<0时,D_max = max(-p_A p_B, -p_a p_b))。D'的取值范围为0到1,当D'=1时表示完全连锁不平衡(无重组历史),D'=0表示连锁平衡。D'对重组事件敏感,但受等位基因频率影响较小。

(也称Δ²)定义为:r² = D² / (p_A p_a p_B p_b)。r²的取值范围为0到1,其平方根为正负相关系数。r²对等位基因频率敏感,但具有更好的统计性质,常用于关联研究的功效计算。r²=1表示完全相关(即两个位点提供相同信息),r²=0表示无关联。

其他度量包括标准化的D_w(Lewontin's D')、Q等。在实际应用中,选择哪种度量取决于研究目的:D'更适合检测重组历史和LD block边界,r²更适合关联分析的标记选择。

LD的成因与影响因素编辑本段

LD的产生和维持受多种进化力量驱动

1. 重组与物理距离:重组是打破LD的主要力量。两个位点间的重组率θ越高,LD衰减越快。对于人类基因组,通常认为在物理距离小于50kb时LD较强,随着距离增加LD指数级衰减。因此LD图可以用于揭示染色体上的重组热点和冷点。

2. 突变新突变最初与其所在单倍型上的等位基因完全连锁(D'=1),但随后重组和漂变会逐步稀释这种关联。

3. 自然选择选择作用于一个或两个位点会改变等位基因频率并间接影响LD。例如,平衡选择(如杂合优势)可维持长期LD;选择性清除(selective sweep)则会导致附近区域LD升高。

4. 遗传漂变小群体中,漂变可导致等位基因频率随机波动,产生并维持非随机关联,尤其在有效群体大小较小时

5. 群体混合与结构:当两个遗传背景不同的群体混合时,在混合初期会产生全局性的LD(称为混合LD),随着世代增加通过重组逐渐衰减。这种LD可用于推断混合时间和群体历史。

6. 基因转换倒位拷贝变异基因组重排事件也能导致局部LD的增减。

LD的生物学与医学应用编辑本段

LD作为遗传学的基本参数,在多个研究领域具有重要应用:

1. 关联研究(GWAS):LD是进行全基因组关联研究的基础原理。由于因果变异与附近标记位点存在LD,研究者可以通过检测与表型显著关联的SNP来定位致病位点。r²决定了捕获因果信号所需的标记密度,并影响统计学功效。例如,人类基因组中常见SNP的LD通常延伸至数十kb,因此商业SNP芯片通过标签SNP(tag SNP)间接覆盖大部分常见变异。

2. 基因精细定位:利用LD衰减模式,结合关联信号,可以缩小因果变异所在区域。例如,使用条件分析和跨种族LD结构比较,可以在数百kb的关联区间内将候选变异缩小到几个功能位点。

3. 群体历史推断:LD衰减曲线反映了有效群体大小和历史事件。例如,非洲人群具有更快的LD衰减(反映更大的长期有效群体大小),而欧洲人群LD延伸更长(反映更近的瓶颈或奠基者效应)。通过分析基因组不同区域的LD模式,可推断群体大小变化、迁移和混合事件。

4. 亲缘关系与连锁分析:遗传图谱构建、家系连锁分析以及亲缘鉴定中,LD信息用于估计重组率和推断单倍型。

5. 进化遗传学:LD有助于检测选择信号、鉴定适应性等位基因以及推断适应性渐渗。例如,受选择性清除的区域表现为低多样性、高LD和特定等位基因频率偏移。此外,相比于常染色体性染色体叶绿体基因组的LD模式反映独特的进化机制。

LD的衰退与基因组特征编辑本段

描述LD随物理距离增加的衰减速度是基因组结构的重要特征。通常,使用LD衰减距离(例如r²衰减到一半时的距离)来表征不同基因组区域或物种的LD特点。人类基因组中LD的平均衰减距离约为10-30kb(不同数据集有差异),但存在巨大变异:在着丝粒和重组热点区域LD衰减更快,而在着丝粒附近和低重组区LD延伸更长。

LD block(也称haplotype block)是指LD较强且内部重组率极低的基因组连续区域,其边界往往由重组热点界定。识别LD block有助于理解染色体结构、连锁图谱构建以及简化关联分析。人类基因组中LD block的平均大小约为10-100kb,但分布不均。

LD的计算与软件编辑本段

计算LD需要基因型或单倍型数据。常用软件包括PLINK(提供--ld命令)、Haploview(图形化界面)、LDlink(基于1000 Genomes的在线工具)、Beagle等。计算时通常需要指定参考群体、最小等位基因频率阈值和窗口大小。对于大规模的关联研究,LD矩阵的快速计算和可视化是核心步骤,常用方法包括使用稀疏矩阵和分块估算。

在大样本数据中,单倍型频率可通过EM算法或贝叶斯方法进行相位推断,得到的单倍型数据可用于LD计算。另外,r²和D'的显著性可通过卡方检验或置换检验评估。

局限性与注意事项编辑本段

使用LD时需要注意:不同度量指标的适用场景不同;等位基因频率异质性会影响LD值;群体分层会导致假阳性关联;LD模式在不同人群中差异显著,因此关联研究的标记选择必须基于目标人群;由于LD反映了群体历史,不能简单视为因果关系的证据。此外,罕见变异的LD通常较弱,常规GWAS很难通过标签SNP捕获稀有致病突变。

参考资料编辑本段

  • Lewontin RC. The interaction of selection and linkage. I. General considerations; heterotic models. Genetics. 1964;49(1):49-67.
  • Pritchard JK, Przeworski M. Linkage disequilibrium in humans: models and data. Am J Hum Genet. 2001;69(1):1-14.
  • Reich DE, Cargill M, Bolk S, et al. Linkage disequilibrium in the human genome. Nature. 2001;411(6834):199-204.
  • Slatkin M. Linkage disequilibrium: understanding the evolutionary past and mapping the medical future. Nat Rev Genet. 2008;9(6):477-485.
  • Myers S, Bottolo L, Freeman C, McVean G, Donnelly P. A fine-scale map of recombination rates and hotspots across the human genome. Science. 2005;310(5746):321-324.
  • Wall JD, Pritchard JK. Haplotype blocks and linkage disequilibrium in the human genome. Nat Rev Genet. 2003;4(8):587-597.
  • Weir BS. Genetic Data Analysis II. Sunderland: Sinauer Associates; 1996.
  • Purcell S, Neale B, Todd-Brown K, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet. 2007;81(3):559-575.

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 宏基因组学    下一篇 异形胞