首页 > 解决方案 > 意外的 Parquet 文件大小

问题描述

我对 Spark 场景非常陌生,所以如果我在这里犯了明显的错误,请耐心等待。

从包含大量数据的源读取和转换后,我正在写一些镶木地板文件。通过显示命令确认数据成功读入。我的问题是当我将镶木地板文件写入目标文件夹时,它们的大小为 0(在被两列分区之后)。

这是写命令:

df.write \
.partitionBy([partition1], [partition2]) \
.mode("overwrite") \
.parquet("dbfs:[destination]")

执行后,我会在 log4j 输出中看到:

21/06/20 10:35:02 INFO NativeAzureFileSystem: FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] 创建输出流;权限:rw-r--r--,覆盖:true,bufferSize:65536 21/06/20 10:35:02 信息 NativeAzureFileSystem:FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] 关闭流;尺寸:0

有谁知道为什么尺寸可能是0?

标签: pythonapache-sparkpysparkspark-streamingparquet

解决方案


推荐阅读