sql - 避免在 Spark SQL 中对 GROUP BY 进行随机播放

问题描述

我想在按分区键的列分组的同时GROUP BY对正确分区执行一个子句。DataFrame显然，在这种情况下，实际上不需要改组，因为所有相等的键都已经驻留在相同的分区中。但是，我无法弄清楚如何真正避免这种洗牌以及是否有可能。我在上尝试了分桶和分区选项DataFrameWriter，但这些似乎没有多大帮助，因为我继续看到计划中的交换。除了说，还有什么方法可以做类似的事情mapPartitions吗？

标签： sqlapache-sparkgroup-bybigdatashuffle

sql - 避免在 Spark SQL 中对 GROUP BY 进行随机播放

问题描述

解决方案

推荐阅读