python - 使用 seaborn 的水平箱线图
问题描述
我有一个包含 30 个学生的数据集,每个学生有 7 个特征代表技能(艺术、数学等)。应用 k-means 算法后,这些学生被分为 3 个集群。0, 1, 2 是标签:
Id CCL CMCT CD CPAA CSC SIE CEC labels
1 2 5 4 5.5 6 2.5 5 0
etc
我想用 3 个不同的箱线图来表示它,每个集群一个。我认为最好有一个水平图,其中“y”是七个技能,“x”是资格。我不确定如何使用 sns.boxplot() 来实现这一点。
提前致谢。
解决方案
如果我理解正确,你会想从融化你的数据框开始,因为它目前是宽格式,而 Seaborn更喜欢 long 或 tidy format。
然后你可以使用sns.catplot()
,这样你就有了三个地块,而不是一个。从文档:
使用 catplot() 组合 boxplot() 和 FacetGrid。这允许在其他分类变量中进行分组。使用 catplot() 比直接使用 FacetGrid 更安全,因为它确保跨方面的变量顺序同步:
### Make dummy dataframe
id = np.arange(1,10,1)
np.random.seed(0)
CCL = list(np.random.randint(5, size=len(id)))
CMCT = list(np.random.randint(8, size=len(id)))
CD = list(np.random.randint(5, size=len(id)))
CPAA = list(np.random.randint(9, size=len(id)))
CSC = list(np.random.randint(12, size=len(id)))
SIE = list(np.random.randint(5, size=len(id)))
CEC = list(np.random.randint(7, size=len(id)))
labels = list(np.random.randint(3, size=len(id)))
df = pd.DataFrame(list(zip(id, CCL, CMCT, CD, CPAA, CSC, SIE, CEC, labels)),
columns =['id', 'CCL', 'CMCT', 'CD', 'CPAA', 'CSC', 'SIE', 'CEC', 'labels']
)
print(df)
### Now melt and plot
df_melt = pd.melt(df, id_vars=['id', 'labels'],
value_vars=['CCL', 'CMCT', 'CD', 'CPAA', 'CSC', 'SIE', 'CEC']
)
print(df_melt)
sns.catplot(data=df_melt, x='value', y='variable', col='labels', kind='box')
plt.show()