首页 > 解决方案 > 如何强制 Spark Dataframe 在所有工作节点之间拆分?

问题描述

我想创建一个只有 10 行的小型数据框。我想强制将此数据帧分发到两个工作节点。我的集群只有两个工作节点。我怎么做?

目前,每当我创建如此小的数据框时,它只会保存在一个工作节点中。

我知道,Spark 是为大数据构建的,这个问题没有多大意义。但是,从概念上讲,我只是想知道强制 Spark 数据帧在所有工作节点之间拆分是否可行或可能(假设只有 10-50 行的非常小的数据帧)。

或者,这是完全不可能的,我们必须依赖 Spark master 来分发这个数据帧?

标签: apache-spark

解决方案


推荐阅读