首页 > 解决方案 > 如何理解拼花文件名称的每个部分

问题描述

案子: part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet

我在代码中找不到镶木地板文件的一些规则。有人可以解释吗?

代码: https ://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/FileFormatWriter.scala

https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/internal/io/FileCommitProtocol.scala

标签: apache-sparkparquet

解决方案


在这种情况下:

part-00000 表示拆分(一个)分区号。

-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许 Spark Actions 中不发生冲突的并发写入进程。

“c000”表示一个计数器,表示一个文件已被写入该分区的次数。这里是零,它指望。老实说,不确定如果超过 999 会发生什么。


推荐阅读