首页 > 解决方案 > PySpark:编写镶木地板文件时如何指定文件大小?

问题描述

我有一个要转换为镶木地板的 600+gb JSON。读写 parquet 的语法很简单:

阅读:

data = spark.read.parquet('file-path')

写作:

data.write.parquet("file-path")

不过,我的问题是,是否有一个选项可以指定生成的 parquet 文件的大小,即接近 128mb,根据 Spark 的文档,这是最高性能的大小。目前正在data.write.parquet处理 10-20mb 之间的文件,我怀疑这会影响我的工作绩效。

我尝试使用coalesce,data.coalesce(1500).write.mode("append").parquet("file-path")作为一种解决方法,但是设置分区号有点偶然。

有没有更好的写拼花的方法?

标签: pythonpysparkbigdataparquet

解决方案


推荐阅读