生物百科  > 所属分类  >  生命科学    分子生物学   

系统发育分析

系统发育分析(英文:Phylogenetic analysis)是利用生物的遗传、形态或行为等特征数据,推断其进化历史(即系统发育关系)并构建系统发育树的计算与统计方法学。其核心目标是重建物种(或其基因)之间的共同祖先关系,揭示生命之树的拓扑结构和分支时序。

概述

系统发育分析是现代进化生物学、比较基因组学、分类学和流行病学(如追踪病毒变异)的基础工具。它基于一个核心假设:具有更近共同祖先的生物(或基因)通常比关系较远的生物共享更多相似的特征。这些特征可以是:

  • 分子序列数据:DNA、RNA或蛋白质序列(最常用)。

  • 形态特征:骨骼结构、花瓣数量等。

  • 行为特征:鸣唱模式、求偶行为等。

  • 其他离散性状:基因存在/缺失、特定代谢通路等。

核心概念

  • 系统发育树:表示进化关系的分支图。其组成部分包括:

    • 末端节点(叶节点):代表实际观测到的分类单元(物种、个体、基因)。

    • 内部节点:代表假定的共同祖先

    • 分支:代表进化谱系,其长度通常与沿着该分支发生的进化改变量(如遗传距离)成正比。

    • :树中最古老的分支点,代表所有分类单元的最近共同祖先。

  • 同源 vs. 同功:分析的关键前提是使用同源特征(源于共同祖先),而非同功特征(源于趋同进化),否则会导致错误推断。

  • 基因树 vs. 物种树:单个基因的进化历史(基因树)可能因不完全谱系分选基因重复/丢失水平基因转移而与物种的进化历史(物种树)不一致。区分二者是分析中的重点和难点。

主要分析方法

根据构建原理和算法,主要分为以下几类:

1. 基于距离的方法

  • 原理:先计算所有分类单元两两之间的遗传距离(如p-距离、Kimura 2-参数距离),然后根据距离远近将分类单元聚类成树。

  • 常用算法邻接法(Neighbor-Joining, NJ),一种快速、简洁的聚类方法。

  • 优点:计算速度快,适用于大数据集。

  • 缺点:丢失了单个特征(如特定位点)的进化信息,对进化模型不敏感,通常不提供对树分支置信度的直接度量。

2. 基于特征/离散数据的方法

  • 最大简约法(Maximum Parsimony, MP)

    • 原理:寻找所需进化改变(如核苷酸替换)次数最少的那个树,即“最简单即最优”。

    • 优点:逻辑直观,不依赖于复杂的进化模型。

    • 缺点:在序列分歧度较高(存在大量同塑性)或进化速率差异大时,易产生长枝吸引现象,导致错误推断。

3. 基于统计模型/似然的方法

  • 最大似然法(Maximum Likelihood, ML)

    • 原理:在给定的核苷酸/氨基酸替换模型(如GTR模型)和一棵树的前提下,计算观察到实际序列数据的似然值。通过搜索所有可能的树或使用启发式算法,寻找使该似然值最大的那棵树。

    • 优点:统计框架严谨,能整合复杂的进化模型(考虑不同位点速率异质性、不同碱基频率等),是目前最常用和最可靠的单基因树构建方法之一。

    • 缺点:计算量极大,尤其对于大数据集。

  • 贝叶斯推断法(Bayesian Inference, BI)

    • 原理:在ML基础上引入贝叶斯定理。先设定参数的先验分布,然后通过马尔可夫链蒙特卡洛模拟,从后验分布中采样,最终得到一组高概率的系统发育树及其分支的后验概率支持。

    • 优点:直接提供分支的后验概率作为支持度,并能同时估计所有模型参数的不确定性。

    • 缺点:计算极其耗时,且需要仔细检查MCMC链的收敛性。

关键步骤与考量

  1. 数据准备与比对:使用ClustalW, MAFFT, MUSCLE等工具进行多序列比对,确保比较的是同源位点。这是分析中最关键且易出错的一步。

  2. 模型选择:使用jModelTest, ModelFinder等工具,为ML或BI分析选择最合适的序列进化模型。

  3. 树搜索与构建:使用上述方法(NJ, MP, ML, BI)构建系统发育树。

  4. 树的可视化与评估

    • 支持度评估:通过自举法(Bootstrap,如ML bootstrap值)或后验概率(Bayesian posterior probability)评估树节点的可靠性。通常支持值>70% (bootstrap) 或 >0.95 (后验概率) 被认为支持较强。

    • 树的可视化:使用FigTree, iTOL等软件进行绘制和注释。

  5. 树根确定:通过引入外群(一个明确位于所研究类群之外的分类单元)来确定树的根。

应用领域

  • 分类学与系统学:建立自然的生物分类系统。

  • 比较基因组学与功能预测:基于“系统发育谱”推断基因功能。

  • 分子钟与分化时间估算:结合化石校准点,估算物种或基因的分化时间。

  • 流行病学追踪:重建病毒(如HIV, SARS-CoV-2)的传播路径和进化动态。

  • 保护生物学:识别具有独特进化历史的进化显著单元。


参考文献

  1. Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates. (系统发育分析领域的经典教科书)

  2. Yang, Z. (2014). Molecular Evolution: A Statistical Approach. Oxford University Press. (侧重分子进化和最大似然/贝叶斯推断的权威著作)

  3. Swofford, D. L., et al. (1996). Phylogenetic inference. In: Molecular Systematics (2nd ed.). Sinauer Associates. (全面介绍各种系统发育推断方法的经典章节)

  4. Huelsenbeck, J. P., & Ronquist, F. (2001). MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics, 17(8), 754-755. (介绍广泛应用贝叶斯系统发育软件MrBayes的论文)

  5. Katoh, K., & Standley, D. M. (2013). MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Molecular Biology and Evolution, 30(4), 772-780. (介绍高性能多序列比对工具MAFFT)

  6. Letunic, I., & Bork, P. (2021). Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research, 49(W1), W293-W296. (介绍广泛使用的系统发育树在线可视化工具iTOL)

附件列表


0

词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。

如果您认为本词条还有待完善,请 编辑

上一篇 基因组进化    下一篇 亚基因组分析

关键词

暂无关键词

同义词

暂无同义词