首页 > 解决方案 > 基于混合类型数据框的 K 均值

问题描述

我有以下数据集,我想在其上应用聚类(特别是 k-means)。

     id      category     value
0    122         A          3
1    122         B          4
2    122         C          9
3    145         A          19
4    145         B          22
5    145         C          90
.
.
. 
197    225         A          16 
198    225         B          17
199    225         C          12

我想要做的是创建 id 集群。例如,每个集群应该包含一些基于类别值计算的相似性度量的 id。

例如:C1 {122, 145, 148} C2{ 225, 222, 221} ....

关于如何处理此类问题的任何想法?

标签: pythonpandascluster-analysisk-means

解决方案


您的数据转换为适当的形状:

您的类别应该是columns,而不是单独的行。

     id          A          B         C
1    122         3          4         9
2    145         19         22        90
..

不要忘记排除 ID 列进行分析!聚类时切勿包含 ID。为了分析,您的数据应该只有 A、B、C 列;每个 ID 一行。这样你就有了一个 nx 3 矩阵,那么你可以使用 k-means 就好了。


推荐阅读