首页 > 解决方案 > dataframe.coalesce(10).write 在 S3 中写入 1 个文件

问题描述

我们正在运行以下代码将表写入 S3:

dataframe.coalesce(10).write.mode("overwrite").parquet(destination_path)

当我检查 S3 时,它只有 1 个镶木地板文件。如何将其写入 10 个文件?

标签: apache-sparkpyspark

解决方案


如果要增加分区数,请使用重新分区。合并只会减少数量。

dataframe.repartition(10).write.mode("overwrite").parquet(destination_path)

推荐阅读