apache-spark - 在每个分区加入 Spark 中的 RDD 以避免洗牌
问题描述
我必须在两个 rdds 之间执行连接,形式为rdd1.join(rdd2)
.
为了避免洗牌,我根据预期的查询对两个 rdds 进行了分区。它们都具有相同数量的分区,使用相同的分区器生成。
现在问题被简化为每个分区的连接,即我想将 rdd1 的分区 i 与 rdd2 的分区 i 连接起来并收集结果。
如何实现(在 scala 中)?
解决方案
推荐阅读
- flutter - 构建带有溢出的图像问题的卡片
- php - 带有 Doctrine 和 find() 的 PHPStan - 无法解析模板类型 T
- ruby-on-rails - 用于动态嵌套属性形式的 Rails 和 Stimulus
- visual-studio-code - 更改 VSCode 设置而不更新 settings.json(即仅用于会话)
- pandas - Plotly:如何在一个图中制作组和堆栈条子图?
- python - 在 Python 中使用均方误差的梯度下降解决方案发散到无穷大
- patch - Chocolatey:回滚到基本版本很棘手
- google-bigquery - 即使在我的 Express 应用程序中安装了 CORS,我的 Web 应用程序仍被 CORS 策略阻止
- jenkins - 我无法安全重启詹金斯
- global-variables - 两个数组之间的最大异或 | 特里