apache-spark - AWS S3 中的 Databricks Committed_vacuum
问题描述
我每天都在运行 Databricks 上的 Spark 3.0 工作。我正在使用覆盖将数据写入 S3 分区文件夹上的每个数据。直到今天早上一切都很好。我检查了我的 S3 并committed_vacuum
在我的日常分区中发现了一个。有谁知道这实际上意味着什么?
解决方案
根据您可以在此处看到的 Databricks 文档,对我来说,该分区或出现故障并且文件未正确提交到 S3。这是 Databricks 提供的工具之一,其功能来自 Delta Lake 项目,允许并发写入。
所以你的工作可能失败了,或者提交没有正确发生,这committed_vacuum
是未提交数据的结果。
推荐阅读
- excel - 我找不到颜色列中的值与 id 列中的相同 id 匹配的次数。?
- nlp - 如何改进我的 nlp 模型以对 4 种不同的精神疾病进行分类?
- java - 由于空检查,使用 lambda 优化 if else 语句?
- python - 如何在 Django 中执行 PostgreSQL 查询
- c# - 如何从xml中删除列表父节点?
- r - 如何记录重复 ID 的不同值
- python - 如何更改 Pandas 数据框的形状
- hadoop - MacBook Air M1 上的 VirtualBox
- java - 基于给定参数在Java中打印arraylist的特定元素
- c++ - InverseSize4.h 中 4x4 矩阵逆的特征编译警告