apache-spark - 在每个分区加入 Spark 中的 RDD 以避免洗牌

首页 > 解决方案 > 在每个分区加入 Spark 中的 RDD 以避免洗牌

问题描述

我必须在两个 rdds 之间执行连接，形式为rdd1.join(rdd2).

为了避免洗牌，我根据预期的查询对两个 rdds 进行了分区。它们都具有相同数量的分区，使用相同的分区器生成。

现在问题被简化为每个分区的连接，即我想将 rdd1 的分区 i 与 rdd2 的分区 i 连接起来并收集结果。

如何实现（在 scala 中）？

标签： apache-spark

解决方案

推荐阅读