系统发育分析
系统发育分析(英文:Phylogenetic analysis)是利用生物的遗传、形态或行为等特征数据,推断其进化历史(即系统发育关系)并构建系统发育树的计算与统计方法学。其核心目标是重建物种(或其基因)之间的共同祖先关系,揭示生命之树的拓扑结构和分支时序。
概述
系统发育分析是现代进化生物学、比较基因组学、分类学和流行病学(如追踪病毒变异)的基础工具。它基于一个核心假设:具有更近共同祖先的生物(或基因)通常比关系较远的生物共享更多相似的特征。这些特征可以是:
分子序列数据:DNA、RNA或蛋白质序列(最常用)。
形态特征:骨骼结构、花瓣数量等。
行为特征:鸣唱模式、求偶行为等。
其他离散性状:基因存在/缺失、特定代谢通路等。
核心概念
系统发育树:表示进化关系的分支图。其组成部分包括:
末端节点(叶节点):代表实际观测到的分类单元(物种、个体、基因)。
内部节点:代表假定的共同祖先。
分支:代表进化谱系,其长度通常与沿着该分支发生的进化改变量(如遗传距离)成正比。
根:树中最古老的分支点,代表所有分类单元的最近共同祖先。
同源 vs. 同功:分析的关键前提是使用同源特征(源于共同祖先),而非同功特征(源于趋同进化),否则会导致错误推断。
基因树 vs. 物种树:单个基因的进化历史(基因树)可能因不完全谱系分选、基因重复/丢失或水平基因转移而与物种的进化历史(物种树)不一致。区分二者是分析中的重点和难点。
主要分析方法
根据构建原理和算法,主要分为以下几类:
1. 基于距离的方法
原理:先计算所有分类单元两两之间的遗传距离(如p-距离、Kimura 2-参数距离),然后根据距离远近将分类单元聚类成树。
常用算法:邻接法(Neighbor-Joining, NJ),一种快速、简洁的聚类方法。
优点:计算速度快,适用于大数据集。
缺点:丢失了单个特征(如特定位点)的进化信息,对进化模型不敏感,通常不提供对树分支置信度的直接度量。
2. 基于特征/离散数据的方法
最大简约法(Maximum Parsimony, MP)
原理:寻找所需进化改变(如核苷酸替换)次数最少的那个树,即“最简单即最优”。
优点:逻辑直观,不依赖于复杂的进化模型。
缺点:在序列分歧度较高(存在大量同塑性)或进化速率差异大时,易产生长枝吸引现象,导致错误推断。
3. 基于统计模型/似然的方法
最大似然法(Maximum Likelihood, ML)
原理:在给定的核苷酸/氨基酸替换模型(如GTR模型)和一棵树的前提下,计算观察到实际序列数据的似然值。通过搜索所有可能的树或使用启发式算法,寻找使该似然值最大的那棵树。
优点:统计框架严谨,能整合复杂的进化模型(考虑不同位点速率异质性、不同碱基频率等),是目前最常用和最可靠的单基因树构建方法之一。
缺点:计算量极大,尤其对于大数据集。
贝叶斯推断法(Bayesian Inference, BI)
原理:在ML基础上引入贝叶斯定理。先设定参数的先验分布,然后通过马尔可夫链蒙特卡洛模拟,从后验分布中采样,最终得到一组高概率的系统发育树及其分支的后验概率支持。
优点:直接提供分支的后验概率作为支持度,并能同时估计所有模型参数的不确定性。
缺点:计算极其耗时,且需要仔细检查MCMC链的收敛性。
关键步骤与考量
数据准备与比对:使用ClustalW, MAFFT, MUSCLE等工具进行多序列比对,确保比较的是同源位点。这是分析中最关键且易出错的一步。
模型选择:使用jModelTest, ModelFinder等工具,为ML或BI分析选择最合适的序列进化模型。
树搜索与构建:使用上述方法(NJ, MP, ML, BI)构建系统发育树。
树的可视化与评估:
支持度评估:通过自举法(Bootstrap,如ML bootstrap值)或后验概率(Bayesian posterior probability)评估树节点的可靠性。通常支持值>70% (bootstrap) 或 >0.95 (后验概率) 被认为支持较强。
树的可视化:使用FigTree, iTOL等软件进行绘制和注释。
树根确定:通过引入外群(一个明确位于所研究类群之外的分类单元)来确定树的根。
应用领域
分类学与系统学:建立自然的生物分类系统。
比较基因组学与功能预测:基于“系统发育谱”推断基因功能。
分子钟与分化时间估算:结合化石校准点,估算物种或基因的分化时间。
流行病学追踪:重建病毒(如HIV, SARS-CoV-2)的传播路径和进化动态。
保护生物学:识别具有独特进化历史的进化显著单元。
参考文献
Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates. (系统发育分析领域的经典教科书)
Yang, Z. (2014). Molecular Evolution: A Statistical Approach. Oxford University Press. (侧重分子进化和最大似然/贝叶斯推断的权威著作)
Swofford, D. L., et al. (1996). Phylogenetic inference. In: Molecular Systematics (2nd ed.). Sinauer Associates. (全面介绍各种系统发育推断方法的经典章节)
Huelsenbeck, J. P., & Ronquist, F. (2001). MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics, 17(8), 754-755. (介绍广泛应用贝叶斯系统发育软件MrBayes的论文)
Katoh, K., & Standley, D. M. (2013). MAFFT multiple sequence alignment software version 7: improvements in performance and usability. Molecular Biology and Evolution, 30(4), 772-780. (介绍高性能多序列比对工具MAFFT)
Letunic, I., & Bork, P. (2021). Interactive Tree Of Life (iTOL) v5: an online tool for phylogenetic tree display and annotation. Nucleic Acids Research, 49(W1), W293-W296. (介绍广泛使用的系统发育树在线可视化工具iTOL)
附件列表
词条内容仅供参考,如果您需要解决具体问题
(尤其在法律、医学等领域),建议您咨询相关领域专业人士。
