python - 如何对具有多个字符串的数据框列进行热编码?
问题描述
我目前正在建立一个回归模型来预测送餐时间。
这是有一些观察的数据框
如果您观察到美食列有很多字符串。使用了代码
pd.get_dummies(data.Cuisines.str.split(',',expand=True),prefix='c')
这帮助我拆分字符串和热编码,但是,有一个新问题需要处理。
合并数据框和假人。快餐出现在第 1 行和第 3 行。预期输出是第一行和第三行值为 1 的单个快餐列,但是,创建了两个快餐列。为第一行创建快餐(第 4 列),为第三行创建快餐(第 15 列)。
有人可以帮我解决这个问题吗,可以帮助我在第一行和第三行获得一个值为 1 的快餐列,对于其他美食也是如此。
解决方案
两者Fast Food
的区别在于尾随空格。您可能想尝试:
data.Cuisines.str.get_dummies(',\s*')
推荐阅读
- java - 如果代码进入 java 中的 jtable,则更新产品数量
- javascript - 错误无法运行jetifier。同时要在移动设备上运行 React Native 应用程序
- django - 使用 Django REST 框架进行实时聊天?
- python - 熊猫如何通过索引为现有数据框添加价值
- spring-boot - Spring boot 多模块项目 - 如何构建多项目并将其部署到单个war文件中
- python - 如何硬重新安装 PyCharm 和 Python?
- node.js - Next.js 中为什么没有通过 getServerSideProps 将 cookie 发送到服务器?
- python - 在数据类表示中传递参数
- javascript - 为什么 TypeError:由于传递 GeolocationPosition 时属性中的非法值而失败
- reactjs - 反应: (??) 速记不适用于 JSX 条件检查?