首页 > 解决方案 > 如何对具有多个字符串的数据框列进行热编码?

问题描述

我目前正在建立一个回归模型来预测送餐时间。

这是有一些观察的数据框

1

如果您观察到美食列有很多字符串。使用了代码

pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')

这帮助我拆分字符串和热编码,但是,有一个新问题需要处理。

合并数据框和假人。快餐出现在第 1 行和第 3 行。预期输出是第一行和第三行值为 1 的单个快餐列,但是,创建了两个快餐列。为第一行创建快餐(第 4 列),为第三行创建快餐(第 15 列)。

2

有人可以帮我解决这个问题吗,可以帮助我在第一行和第三行获得一个值为 1 的快餐列,对于其他美食也是如此。

标签: pythonstringpandasdataframe

解决方案


两者Fast Food的区别在于尾随空格。您可能想尝试:

data.Cuisines.str.get_dummies(',\s*')

推荐阅读