apache-spark - dataframe.coalesce(10).write 在 S3 中写入 1 个文件
问题描述
我们正在运行以下代码将表写入 S3:
dataframe.coalesce(10).write.mode("overwrite").parquet(destination_path)
当我检查 S3 时,它只有 1 个镶木地板文件。如何将其写入 10 个文件?
解决方案
如果要增加分区数,请使用重新分区。合并只会减少数量。
dataframe.repartition(10).write.mode("overwrite").parquet(destination_path)
推荐阅读
- tsql - 在不使用“GO”(对于存储过程)执行时如何使查询按“顺序”运行?
- python - AllenNLP 在“成为”句子上失败。途中发生了一些事情
- kubernetes - 我正在使用 Helm 从 Bitnami 安装自定义 WordPress 图像。无法从 Docker Hub 中的私有存储库中提取图像
- geometry - 将过渡 + 圆 + 过渡曲线拟合到一组测量点
- python - Pygame - 敌人射击,团体问题
- r - Shiny 在 R 中没有给我正确的直方图
- php - 在 PHP 中根据 XSD 1.1 模式验证 XML
- php - 数据透视表 Laravel 中的外键问题
- c# - .net 中的堆栈操作
- c++ - 当 QNetworkAccessManager 完成时,Qt 检索在请求期间创建的附加数据