首页 > 解决方案 > Kmeans 聚类非数值列

问题描述

在此处输入图像描述

这是我的数据集

>   0   1   2   3   4   5
> 
> 0 2020    14446999.0  300340.0    300287.0    2.0 お笑い
> 1 2020    12725811.0  300451.0    300445.0    2.0 格闘技
> 2 2020    15894610.0  300452.0    300451.0    3.0 ボクシング
> 3 2020    16334176.0  300445.0    0.0 1.0 スポーツ
> 4 2020    12725811.0  300451.0    300445.0    2.0 格闘技

大家好。

我有一个看起来像这样的数据集,我希望我可以对包含人们兴趣的第 5 列进行聚类。比如 4 个 custering/groups,以查看人们的主要兴趣。

第一列是日期,第 3 列和第 4 列是 ID。问题是我在 kaggle 中搜索了很多示例。似乎所有 Kmeans 聚类示例都是基于数字数据的数据集。我的第 5 栏是日语单词而不是英语。这让我很不爽。我该怎么做或任何人都可以为我分享链接示例?提前致谢。

标签: pythonpandask-means

解决方案


您可以使用pd.factorize将 str 列转换为数字:

输入数据框

>>> df
      1           2         3         4    5      6
0  2020  14446999.0  300340.0  300287.0  2.0    お笑い
1  2020  12725811.0  300451.0  300445.0  2.0    格闘技
2  2020  15894610.0  300452.0  300451.0  3.0  ボクシング
3  2020  16334176.0  300445.0       0.0  1.0   スポーツ
4  2020  12725811.0  300451.0  300445.0  2.0    格闘技
df[6] = pd.factorize(df[6])[0]

输出结果

>>> df
      1           2         3         4    5  6
0  2020  14446999.0  300340.0  300287.0  2.0  0
1  2020  12725811.0  300451.0  300445.0  2.0  1
2  2020  15894610.0  300452.0  300451.0  3.0  2
3  2020  16334176.0  300445.0       0.0  1.0  3
4  2020  12725811.0  300451.0  300445.0  2.0  1

推荐阅读