理解层次聚类

与 K-均值聚类算法（K-means）不同，不需要指定聚类的数量。
结果汇总在树状图，树状图可以方便地解释数据和选择任何数量的聚类。

基本思路

专注：自下而上（又称凝聚聚类（Agglomerative clustering））
从单个观察开始（又称叶子）开始，作为聚类。
通过将叶子合并成树枝向上移动。
将树枝与其他叶子或树枝合并。
最终，当所有的东西都合并到一个聚类时，到达顶端。

树状图示例。

解释树状图

在适当的高度上进行切割，以获得所需聚类的#。
垂直轴：相异度度量（或距离）——两个聚类合并的高度。
高度表示聚类的相似性。
较低的高度 → 更相似 。
水平轴并不表示相似性。
交换左右分支并不影响树状图的意义。

它如何衡量聚类之间的差异？

基于度量（最常见的是曼哈顿距离（Manhattan distance）或欧几里得距离（Euclidean distance，亦称欧氏距离））。
- 最长距离法（Complete linkage）（即最远邻法（furthest-neighbor））
- 最短距离法（Single linkage）（即最近邻法（nearest-neighbor））
- 平均距离法（Average linkage）
- 质心距离法（Centroid linkage）
  2, 基于相关性的距离
- 查找观测值之间的相关性。

层次聚类的缺点

计算成本高——不适用于大数据集。
- $O(N²{log}N)$，而$O(N)$表示 K-均值。
对噪声和离群值敏感。

使用层次聚类对 FIFA20 的球员进行分组

数据清理/预处理（第一部分中的代码）

import pandas as pd
import numpy as np
df = pd.read_csv("/content/players_20.csv")
df = df[['short_name','age', 'height_cm', 'weight_kg', 'overall', 'potential','value_eur', 'wage_eur', 'international_reputation', 'weak_foot','skill_moves', 'release_clause_eur', 'team_jersey_number','contract_valid_until', 'nation_jersey_number', 'pace', 'shooting','passing', 'dribbling', 'defending', 'physic', 'gk_diving','gk_handling', 'gk_kicking', 'gk_reflexes', 'gk_speed','gk_positioning', 'attacking_crossing', 'attacking_finishing','attacking_heading_accuracy', 'attacking_short_passing','attacking_volleys', 'skill_dribbling', 'skill_curve','skill_fk_accuracy', 'skill_long_passing', 'skill_ball_control','movement_acceleration', 'movement_sprint_speed', 'movement_agility','movement_reactions', 'movement_balance', 'power_shot_power','power_jumping', 'power_stamina', 'power_strength', 'power_long_shots','mentality_aggression', 'mentality_interceptions','mentality_positioning', 'mentality_vision', 'mentality_penalties','mentality_composure', 'defending_marking', 'defending_standing_tackle','defending_sliding_tackle','goalkeeping_diving','goalkeeping_handling', 'goalkeeping_kicking','goalkeeping_positioning', 'goalkeeping_reflexes']]
df = df[df.overall > 86] # extracting players with overall above 86
df = df.fillna(df.mean())
names = df.short_name.tolist() # saving names for later
df = df.drop(['short_name'], axis = 1) # drop the short_name column
df.head()

标准化数据

from sklearn import preprocessing
x = df.values # numpy array
scaler = preprocessing.MinMaxScaler()
x_scaled = scaler.fit_transform(x)
X_norm = pd.DataFrame(x_scaled)

基于平均距离法的层次聚类

import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as sch
# plot dendrogram using average linkage
plt.figure(figsize=(10,14))
plt.title('Hierarchical Clustering Dendrogram with Average Linkage')
dendrogram = sch.dendrogram(sch.linkage(X_norm, method="average"), labels= names, leaf_font_size = 13, orientation='right')

分成两组：守门员和其他人

最短距离法

# plot dendrogram using single linkage
plt.figure(figsize=(10,14))
plt.title('Hierarchical Clustering Dendrogram with Single Linkage')
dendrogram = sch.dendrogram(sch.linkage(X_norm, method="single"), labels= names, leaf_font_size = 13, orientation='right')

分为守门员和其他人

质心距离法

# plot dendrogram using centroid linkage
plt.figure(figsize=(10,14))
plt.title('Hierarchical Clustering Dendrogram with Centroid Linkage')
dendrogram = sch.dendrogram(sch.linkage(X_norm, method="centroid"), labels= names, leaf_font_size = 13, orientation='right')

再次分成守门员和其他人。

最长距离法

# plot dendrogram using complete linkage
plt.figure(figsize=(10,14))
plt.title('Hierarchical Clustering Dendrogram with Complete Linkage')
dendrogram = sch.dendrogram(sch.linkage(X_norm, method="complete"), labels= names, leaf_font_size = 13, orientation='right')

结论

最长距离法似乎是将球员进行最准确地分组的方法！

感谢阅读本文，希望对你有所启迪。

本文的 GitHub 仓库：https://github.com/importdata/Clustering-FIFA-20-Players

作者介绍：

Jaemin Lee，Jaemin Lee，专攻数据分析与数据科学，数据科学应届毕业生。

原文链接：

https://towardsdatascience.com/grouping-soccer-players-with-similar-skillsets-in-fifa-20-part-2-hierarchical-clustering-839705f6d37d?source=---------0-----------------------

创作场景

在 FIFA 20 将技能相似球员进行分组（2）：层次聚类