层次聚类分析

核心概念与类型编辑本段

层次聚类根据构建层次的方向，主要分为两种策略：

ADSFAEQWER353423413434

凝聚式层次聚类（英文：Agglomerative hierarchical clustering）：
- 最常见的类型，采用“自底向上”的策略。
- 起始点：将每个数据点视为一个独立的簇。
- 过程：迭代地找出两个最相似的簇，将其合并为一个新簇。
- 终点：直到所有点合并为一个大簇。
分裂式层次聚类（英文：Divisive hierarchical clustering）：
- 采用“自顶向下”的策略。
- 起始点：将所有数据点视为一个大簇。
- 过程：迭代地将现有簇分裂为两个子簇。
- 终点：直到每个数据点都成为一个独立的簇。计算上通常比凝聚法更复杂。

表1：两种层次聚类策略的比较 ADSFAEQWER353423413434

凝聚式层次聚类的标准流程包含以下关键步骤：

ADFASDFAF23RQ23R

计算距离矩阵：计算所有 n 个数据点两两之间的距离（英文：Distance metric）（如欧氏距离、曼哈顿距离）或不相似度（英文：Dissimilarity），形成一个 n×n 的对称矩阵。
初始化：将每个数据点视为一个独立的簇。
迭代合并：
ADFASDFAF23RQ23R

a. 寻找最近簇对：在距离矩阵中，找出当前所有簇之间距离最小的两个簇 C_i 和 C_j。
b. 合并簇：将簇 C_i 和 C_j 合并为一个新簇 C_new。
c. 更新距离矩阵：删除与 C_i 和 C_j 相关的行和列，并计算新簇 C_new 与其他所有簇之间的距离。
终止：重复步骤3，直到所有数据点合并为一个簇，或达到预设的簇数量。

连接准则（英文：Linkage criterion）决定了如何计算合并后的新簇与其他簇之间的距离，它显著影响最终的聚类形状。

ADFASDFAF23RQ23R

层次聚类的结果通过树状图可视化。分支长度表示簇间合并时的距离或不相似度。通过“切割”树状图（在特定高度画一条水平线），可以得到不同粒度的聚类结果。

ADSFAEQWER353423413434

层次聚类是主流统计和数据分析软件的标准功能： ADSFAEQWER353423413434

编程语言/库：
- R语言：stats 包中的 hclust() 函数（凝聚法）和 diana() 函数（分裂法）。
- Python：SciPy 库的 scipy.cluster.hierarchy 模块，或 scikit-learn 的 AgglomerativeClustering 类。
- MATLAB：linkage 和 cluster 函数。
专业软件：SPSS, SAS, Cluster 3.0, MeV 等。

Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer.
Müllner, D. (2011). Modern hierarchical, agglomerative clustering algorithms. arXiv preprint arXiv:1109.2378.
Ward, J. H. (1963). Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association, 58(301), 236–244.
Kaufman, L., & Rousseeuw, P. J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.
R Core Team (2023). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: a review. ACM Computing Surveys, 31(3), 264–323.
Kassambara, A. (2017). Practical Guide to Cluster Analysis in R: Unsupervised Machine Learning. STHDA.
Xu, R., & Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on Neural Networks, 16(3), 645–678.

词条内容仅供参考，如果您需要解决具体问题
（尤其在法律、医学等领域），建议您咨询相关领域专业人士。

如果您认为本词条还有待完善，请编辑