apache-spark - 如何理解拼花文件名称的每个部分
问题描述
案子:
part-00000-deb4a3d4-d8c3-4983-8756-ad7e0b29e780.c000.snappy.parquet
我在代码中找不到镶木地板文件的一些规则。有人可以解释吗?
解决方案
在这种情况下:
part-00000 表示拆分(一个)分区号。
-deb4a3d4-d8c3-4983-8756-ad7e0b29e780 表示随机 UUID 以允许 Spark Actions 中不发生冲突的并发写入进程。
“c000”表示一个计数器,表示一个文件已被写入该分区的次数。这里是零,它指望。老实说,不确定如果超过 999 会发生什么。
推荐阅读
- r - R:shinyMobile - f7DatePicker 在 iPad 上不工作
- c# - 通过与 Activator.CreateInstance 的接口实例化的 C# 程序集对象的生命周期
- tensorrt - 显示一个 tensorflow UFF 模型的内容
- html - 当用户通过滚动到达页面末尾时启用按钮
- javascript - 用 html() 替换 div 元素
- java - Java:将 Map.keySet() 保存到 ArrayList 会引发 StackOverflowError
- typescript - 如何让热模块重新加载以在打字稿 monorepo 中工作
- azure-devops - Azure devops repo 使用 RestApi 从 repo 下载特定文件
- sql - 2表1结果,一个棘手的SQL
- linux - 我可以使用 dma_alloc_coherent 设置特定的内存对齐方式吗?