首页 > 解决方案 > 在每个分区加入 Spark 中的 RDD 以避免洗牌

问题描述

我必须在两个 rdds 之间执行连接,形式为rdd1.join(rdd2).

为了避免洗牌,我根据预期的查询对两个 rdds 进行了分区。它们都具有相同数量的分区,使用相同的分区器生成。

现在问题被简化为每个分区的连接,即我想将 rdd1 的分区 i 与 rdd2 的分区 i 连接起来并收集结果。

如何实现(在 scala 中)?

标签: apache-spark

解决方案


推荐阅读