连锁不平衡
定义与基本概念编辑本段
连锁不平衡(Linkage disequilibrium, LD)是群体遗传学中描述不同基因座(loci)上的等位基因之间非随机关联的核心概念。在随机交配的理想群体中,不同位点上的等位基因应独立组合,此时称这些位点处于连锁平衡(linkage equilibrium)。然而,现实群体中由于多种进化力量的作用,实际观察到的单倍型频率往往偏离随机期望,这种偏离即为连锁不平衡。
具体而言,考虑两个双等位基因位点A和B,其等位基因分别为A/a和B/b。设等位基因频率为p_A、p_a、p_B、p_b,单倍型频率为p_AB、p_Ab、p_aB、p_ab。在连锁平衡下,p_AB = p_A × p_B。LD定义为实际单倍型频率与随机期望的差值:D = p_AB - p_A p_B。D值可为正或负,反映了特定等位基因组合的过表达或低表达。
LD的度量指标编辑本段
为了在不同位点间进行比较和统计检验,发展了多种标准化度量指标。最常见的是标准化不平衡系数D'和相关系数r²。
D' 的定义为:D' = D / D_max,其中D_max是D可能达到的最大值(当D>0时,D_max = min(p_A p_b, p_a p_B);当D<0时,D_max = max(-p_A p_B, -p_a p_b))。D'的取值范围为0到1,当D'=1时表示完全连锁不平衡(无重组历史),D'=0表示连锁平衡。D'对重组事件敏感,但受等位基因频率影响较小。
r²(也称Δ²)定义为:r² = D² / (p_A p_a p_B p_b)。r²的取值范围为0到1,其平方根为正负相关系数。r²对等位基因频率敏感,但具有更好的统计性质,常用于关联研究的功效计算。r²=1表示完全相关(即两个位点提供相同信息),r²=0表示无关联。
其他度量包括标准化的D_w(Lewontin's D')、Q等。在实际应用中,选择哪种度量取决于研究目的:D'更适合检测重组历史和LD block边界,r²更适合关联分析的标记选择。
LD的成因与影响因素编辑本段
LD的产生和维持受多种进化力量驱动:
1. 重组与物理距离:重组是打破LD的主要力量。两个位点间的重组率θ越高,LD衰减越快。对于人类基因组,通常认为在物理距离小于50kb时LD较强,随着距离增加LD指数级衰减。因此LD图可以用于揭示染色体上的重组热点和冷点。
2. 突变:新突变最初与其所在单倍型上的等位基因完全连锁(D'=1),但随后重组和漂变会逐步稀释这种关联。
3. 自然选择:选择作用于一个或两个位点会改变等位基因频率并间接影响LD。例如,平衡选择(如杂合优势)可维持长期LD;选择性清除(selective sweep)则会导致附近区域LD升高。
4. 遗传漂变:在小群体中,漂变可导致等位基因频率随机波动,产生并维持非随机关联,尤其在有效群体大小较小时。
5. 群体混合与结构:当两个遗传背景不同的群体混合时,在混合初期会产生全局性的LD(称为混合LD),随着世代增加通过重组逐渐衰减。这种LD可用于推断混合时间和群体历史。
LD的生物学与医学应用编辑本段
LD作为遗传学的基本参数,在多个研究领域具有重要应用:
1. 关联研究(GWAS):LD是进行全基因组关联研究的基础原理。由于因果变异与附近标记位点存在LD,研究者可以通过检测与表型显著关联的SNP来定位致病位点。r²决定了捕获因果信号所需的标记密度,并影响统计学功效。例如,人类基因组中常见SNP的LD通常延伸至数十kb,因此商业SNP芯片通过标签SNP(tag SNP)间接覆盖大部分常见变异。
2. 基因精细定位:利用LD衰减模式,结合关联信号,可以缩小因果变异所在区域。例如,使用条件分析和跨种族LD结构比较,可以在数百kb的关联区间内将候选变异缩小到几个功能位点。
3. 群体历史推断:LD衰减曲线反映了有效群体大小和历史事件。例如,非洲人群具有更快的LD衰减(反映更大的长期有效群体大小),而欧洲人群LD延伸更长(反映更近的瓶颈或奠基者效应)。通过分析基因组不同区域的LD模式,可推断群体大小变化、迁移和混合事件。
4. 亲缘关系与连锁分析:在遗传图谱构建、家系连锁分析以及亲缘鉴定中,LD信息用于估计重组率和推断单倍型。
5. 进化遗传学:LD有助于检测选择信号、鉴定适应性等位基因以及推断适应性渐渗。例如,受选择性清除的区域表现为低多样性、高LD和特定等位基因频率偏移。此外,相比于常染色体,性染色体、叶绿体基因组的LD模式反映独特的进化机制。
LD的衰退与基因组特征编辑本段
描述LD随物理距离增加的衰减速度是基因组结构的重要特征。通常,使用LD衰减距离(例如r²衰减到一半时的距离)来表征不同基因组区域或物种的LD特点。人类基因组中LD的平均衰减距离约为10-30kb(不同数据集有差异),但存在巨大变异:在着丝粒和重组热点区域LD衰减更快,而在着丝粒附近和低重组区LD延伸更长。
LD block(也称haplotype block)是指LD较强且内部重组率极低的基因组连续区域,其边界往往由重组热点界定。识别LD block有助于理解染色体结构、连锁图谱构建以及简化关联分析。人类基因组中LD block的平均大小约为10-100kb,但分布不均。
LD的计算与软件编辑本段
计算LD需要基因型或单倍型数据。常用软件包括PLINK(提供--ld命令)、Haploview(图形化界面)、LDlink(基于1000 Genomes的在线工具)、Beagle等。计算时通常需要指定参考群体、最小等位基因频率阈值和窗口大小。对于大规模的关联研究,LD矩阵的快速计算和可视化是核心步骤,常用方法包括使用稀疏矩阵和分块估算。
在大样本数据中,单倍型频率可通过EM算法或贝叶斯方法进行相位推断,得到的单倍型数据可用于LD计算。另外,r²和D'的显著性可通过卡方检验或置换检验评估。
局限性与注意事项编辑本段
使用LD时需要注意:不同度量指标的适用场景不同;等位基因频率异质性会影响LD值;群体分层会导致假阳性关联;LD模式在不同人群中差异显著,因此关联研究的标记选择必须基于目标人群;由于LD反映了群体历史,不能简单视为因果关系的证据。此外,罕见变异的LD通常较弱,常规GWAS很难通过标签SNP捕获稀有致病突变。
参考资料编辑本段
- Lewontin RC. The interaction of selection and linkage. I. General considerations; heterotic models. Genetics. 1964;49(1):49-67.
- Pritchard JK, Przeworski M. Linkage disequilibrium in humans: models and data. Am J Hum Genet. 2001;69(1):1-14.
- Reich DE, Cargill M, Bolk S, et al. Linkage disequilibrium in the human genome. Nature. 2001;411(6834):199-204.
- Slatkin M. Linkage disequilibrium: understanding the evolutionary past and mapping the medical future. Nat Rev Genet. 2008;9(6):477-485.
- Myers S, Bottolo L, Freeman C, McVean G, Donnelly P. A fine-scale map of recombination rates and hotspots across the human genome. Science. 2005;310(5746):321-324.
- Wall JD, Pritchard JK. Haplotype blocks and linkage disequilibrium in the human genome. Nat Rev Genet. 2003;4(8):587-597.
- Weir BS. Genetic Data Analysis II. Sunderland: Sinauer Associates; 1996.
- Purcell S, Neale B, Todd-Brown K, et al. PLINK: a tool set for whole-genome association and population-based linkage analyses. Am J Hum Genet. 2007;81(3):559-575.
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

