apache-spark - dataframe.coalesce(10).write 在 S3 中写入 1 个文件

我们正在运行以下代码将表写入 S3：

dataframe.coalesce(10).write.mode("overwrite").parquet(destination_path)

当我检查 S3 时，它只有 1 个镶木地板文件。如何将其写入 10 个文件？

标签： apache-sparkpyspark

如果要增加分区数，请使用重新分区。合并只会减少数量。

dataframe.repartition(10).write.mode("overwrite").parquet(destination_path)