首页 > 解决方案 > 如何在 dask 数据框中弹出一列?

问题描述

我有一个巨大的数据框(555M+)我想分成一个火车和一个测试集。我怎样才能用像 pop 这样减少内存使用的东西来分割它?我试过了 :

with joblib.parallel_backend('dask'):
    print("Before train test split")
    train_X, test_X = result.random_split([0.8, 0.2])
    print("Before train test split features target")
    train_Y = train_X.pop('TARGET')
    test_Y = test_X.pop('TARGET')

但幸运的是,当我得到 AttributeError: 'DataFrame' object has no attribute 'pop' 时,似乎在 dask 数据帧上没有这样的方法

这适用于多类分类问题。如果您有任何提示,我会很高兴在这里,因为我很挣扎!你可以在这里找到我的存储库。

标签: dask

解决方案


将来对于功能请求,我建议在https://github.com/dask/dask/issues/new提出问题

我在这里添加了一个实现:https ://github.com/dask/dask/pull/5422


推荐阅读