首页 > 解决方案 > 如何将多个HDFS文件压缩为一个

问题描述

我正在使用 Zeppelin 集群(w Spark),write.parquet()最终得到多个 Parquet 文件。我想知道,是否可以将它们合并到一个文件中?path="/folder/*"还是我每次都必须使用?

标签: pysparkhdfsapache-zeppelin

解决方案


使用重新分区():

df.repartition(1).write.parquet(path)

或者,更好的是, coalesce()

df.coalesce(1).write.parquet(path)

推荐阅读