首页 > 解决方案 > dask 如何在多个系统上实现?

问题描述

我是 Dask 库的新手。我想知道我们是否在两个系统上使用 dask 实现并行计算,那么我们应用计算的数据框是否存储在两个系统上?并行计算实际上是如何发生的,从文档中不清楚。

标签: python-2.7parallel-processingdaskdask-distributed

解决方案


Dask 数据帧是分块的,所以通常你有一个由分布在集群中的较小数据帧组成的大数据帧。计算单独应用于每个块,并在需要时对结果进行混洗(例如 groupby、sum 和其他聚合任务)。


推荐阅读