首页 > 解决方案 > 代码非常慢而且几乎永无止境 - Dask 数据框将列分配给字典

问题描述

我有 1M dask 数据框行。我正在尝试将字典值分配给数据框的新列。

df = df.assign(c=lambda x: {"a": x.a, "b": x.b})

print(df.compute())

实现这一目标的最佳方法是什么?

PS:我正在尝试使用进度条来跟踪进度,其中代码真的快到 67% 并且挂断了。我的 CPU 和内存消耗得非常少,但代码正在运行,感觉好像永远不会完成。

标签: daskdask-dataframe

解决方案


也许是以下?(未经测试)

df["c"] = df.apply(lambda row: {"a": row.a, "b": row.b})

推荐阅读