树状图

核心概念与结构编辑本段

树状图本质上是一个二叉树（英文：Binary tree），其基本组成部分包括：

叶子节点（英文：Leaf nodes）：代表最原始的单个数据点、观测对象或操作分类单元（OTUs）。
内部节点（英文：Internal nodes）：代表由两个或多个子节点（可以是叶子节点或其他内部节点）聚合而成的簇（Cluster）。
根节点（英文：Root node）：位于树状图顶端的节点，代表将所有对象聚合在一起的最终簇。
分支/边（英文：Branches/Edges）：连接节点，其长度（英文：Branch length）通常表示两个节点之间的距离（英文：Distance）或不相似度（英文：Dissimilarity）。

根据分支方向，树状图主要分为两种：

表1：树状图与相关图表的比较

特征	树状图	系统发育树	树形图
主要目的	展示数据点层次聚类结果	展示物种/基因的进化关系	展示层次结构（如文件目录）
分支长度意义	通常代表簇间距离/不相似度	代表进化时间/遗传变化量	通常无特定长度意义，重在拓扑结构
关键应用领域	数据聚类、分类学	进化生物学、比较基因组学	信息可视化、组织结构图

树状图是层次聚类分析（英文：Hierarchical Clustering）的输出结果。构建过程主要包含以下步骤：

定义距离矩阵：计算所有对象两两之间的距离（英文：Distance metric）（如欧氏距离、曼哈顿距离）或相似度（英文：Similarity metric）。
选择连接方法：决定如何计算新形成的簇与其它簇/点之间的距离。常用方法包括：
- 单连接（英文：Single Linkage）：取两个簇中最近两点间的距离。
- 全连接（英文：Complete Linkage）：取两个簇中最远两点间的距离。
- 平均连接（英文：Average Linkage）：取两个簇中所有点对距离的平均值。
- 沃德法（英文：Ward's Method）：最小化聚类后产生的总方差增量。
迭代聚合：将距离最近的两个对象/簇合并为一个新簇，更新距离矩阵，重复此过程直至所有对象合并为一簇。
绘制图形：根据合并顺序和距离，以树形结构可视化整个过程。

树状图可以通过多种编程语言和软件轻松生成：

编程语言/库：
- R语言：使用 stats 包中的 hclust() 函数和 plot() 函数，或 ggplot2 扩展包 ggdendro。
- Python：使用 SciPy 库的 scipy.cluster.hierarchy 模块和 matplotlib 进行绘制，或 scikit-learn 库。
专业软件：MEGA（分子进化遗传学分析）、PAUP*（系统发育分析）、Cluster 3.0/TreeView 等。

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.
Müllner, D. (2011). Modern hierarchical, agglomerative clustering algorithms. arXiv preprint arXiv:1109.2378.
Sokal, R. R., & Sneath, P. H. A. (1963). Principles of Numerical Taxonomy. W. H. Freeman.
Felsenstein, J. (2004). Inferring Phylogenies. Sinauer Associates.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
陈润生. (2005). 生物信息学. 清华大学出版社.
Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th ed.). Wiley.
方开泰, 潘恩沛. (1982). 聚类分析. 地质出版社.

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑