首页 > 解决方案 > 如何在多列上使用 OneHotEncoder 编码?

问题描述

我有一个形状为 (85,78) 的 DataFrame,每行对应于一个特定区域,其值作为不同的餐厅类别,如“面包店”、“咖啡馆”、“烧烤联合”等。总唯一类别 = 175。

我需要计算每个区域的顶级类别,为此我想对数据集进行编码。但是 OneHotEncoding 总共给了我 949 行而不是 175 个唯一行。似乎它正在为每一列做 fit_transform。

如果沿其他列重复,pd.get_dummies 通过为每个类别添加后缀 (0,1,2..etc) 来执行相同的操作。

我希望数据框只有 175 列,以便我可以根据每个区域计算它们的总和。

数据框

标签: pythonpandasscikit-learn

解决方案


推荐阅读