dask - 如何在 dask 数据框中弹出一列?
问题描述
我有一个巨大的数据框(555M+)我想分成一个火车和一个测试集。我怎样才能用像 pop 这样减少内存使用的东西来分割它?我试过了 :
with joblib.parallel_backend('dask'):
print("Before train test split")
train_X, test_X = result.random_split([0.8, 0.2])
print("Before train test split features target")
train_Y = train_X.pop('TARGET')
test_Y = test_X.pop('TARGET')
但幸运的是,当我得到 AttributeError: 'DataFrame' object has no attribute 'pop' 时,似乎在 dask 数据帧上没有这样的方法
这适用于多类分类问题。如果您有任何提示,我会很高兴在这里,因为我很挣扎!你可以在这里找到我的存储库。
解决方案
将来对于功能请求,我建议在https://github.com/dask/dask/issues/new提出问题
我在这里添加了一个实现:https ://github.com/dask/dask/pull/5422
推荐阅读
- powershell - 在 Azure-Pipelines.yml 中使用 AzureFileCopy 任务输出
- swift - 使用 Codable 时的错误 - Swift
- vue.js - 如何让这个子组件在 vue.js 中使用视图路由器进行渲染?
- mysql - mysql按组限制记录加上内部连接多个表
- mysql - 如果组成员没有其他列值,则按列分组 MYSQL
- python - numpy.rint 可以返回 Int32 吗?
- python - 在 href 链接中将 URL 的变量从 Python 传递到 HTML
- kotlin - 实现泛型接口时避免单元参数声明
- gitlab - 子项目上的 gitlab 管道
- selenium - 如何以适用于所有浏览器的方式复制 selenium 中的选项卡?