sql - 避免在 Spark SQL 中对 GROUP BY 进行随机播放
问题描述
我想在按分区键的列分组的同时GROUP BY
对正确分区执行一个子句。DataFrame
显然,在这种情况下,实际上不需要改组,因为所有相等的键都已经驻留在相同的分区中。但是,我无法弄清楚如何真正避免这种洗牌以及是否有可能。我在 上尝试了分桶和分区选项DataFrameWriter
,但这些似乎没有多大帮助,因为我继续看到计划中的交换。除了说,还有什么方法可以做类似的事情mapPartitions
吗?
解决方案
推荐阅读
- jsf - 无法从对话框内的 commandButton 更新 Primefaces 数据表
- python - 在 django cassandra 引擎中的 cassandra 中读取超时
- android - 迁移到 androidx NoClassDefFoundError Landroidx/lifecycle/LifecycleRegistry 后
- excel - excel上的VBA宏在Dropbox上创建一个新文件夹
- javascript - Safari 浏览器中的 Javascript 日期对象问题
- c# - 在 EF Core 2.2 的控制器外部访问 DBContext
- c# - Azure Blob 存储共享访问签名 (SAS) - 签名不匹配
- mysql - 如何操作 SQL 查询输出
- automated-tests - 将 Robot Framework 与 Zephyr 集成到 jira
- python - Pandas 修改数据框后抛出错误