python - PySpark：编写镶木地板文件时如何指定文件大小？

我有一个要转换为镶木地板的 600+gb JSON。读写 parquet 的语法很简单：

阅读：

data = spark.read.parquet('file-path')

写作：

data.write.parquet("file-path")

不过，我的问题是，是否有一个选项可以指定生成的 parquet 文件的大小，即接近 128mb，根据 Spark 的文档，这是最高性能的大小。目前正在data.write.parquet处理 10-20mb 之间的文件，我怀疑这会影响我的工作绩效。

我尝试使用coalesce,data.coalesce(1500).write.mode("append").parquet("file-path")作为一种解决方法，但是设置分区号有点偶然。

有没有更好的写拼花的方法？

标签： pythonpysparkbigdataparquet