pyspark - 如何将多个HDFS文件压缩为一个

我正在使用 Zeppelin 集群（w Spark），write.parquet()最终得到多个 Parquet 文件。我想知道，是否可以将它们合并到一个文件中？path="/folder/*"还是我每次都必须使用？

标签： pysparkhdfsapache-zeppelin

使用重新分区（）：

df.repartition(1).write.parquet(path)

或者，更好的是， coalesce()

df.coalesce(1).write.parquet(path)