python - 意外的 Parquet 文件大小
问题描述
我对 Spark 场景非常陌生,所以如果我在这里犯了明显的错误,请耐心等待。
从包含大量数据的源读取和转换后,我正在写一些镶木地板文件。通过显示命令确认数据成功读入。我的问题是当我将镶木地板文件写入目标文件夹时,它们的大小为 0(在被两列分区之后)。
这是写命令:
df.write \
.partitionBy([partition1], [partition2]) \
.mode("overwrite") \
.parquet("dbfs:[destination]")
执行后,我会在 log4j 输出中看到:
21/06/20 10:35:02 INFO NativeAzureFileSystem: FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] 创建输出流;权限:rw-r--r--,覆盖:true,bufferSize:65536 21/06/20 10:35:02 信息 NativeAzureFileSystem:FS_OP_CREATE FILE[destination/partition1/partition2/_started_4885624909327698290] 关闭流;尺寸:0
有谁知道为什么尺寸可能是0?
解决方案
推荐阅读
- django - Django REST Serializer 使用错误的模型进行序列化
- python - python文件写入程序运行时如何更新桌面上的文件大小
- javascript - 使用 d3.js 更新表数据
- c# - C#捕获从不在进程中的函数返回的异常?
- r - 如何设置仅在输入 3 时才显示集合向量的函数?
- javascript - 如果 URI 没有改变,例如在单页应用程序上,如何检测用户是否在新页面上?
- angular - Angular Kendo UI 全局访问
- php - 内连接循环通过
- git - 如何 git rebase 从另一个分支直接到 master 分支?
- javascript - 受控数字比例映射