apache-spark - AWS S3 中的 Databricks Committed_vacuum

首页 > 解决方案 > AWS S3 中的 Databricks Committed_vacuum

问题描述

我每天都在运行 Databricks 上的 Spark 3.0 工作。我正在使用覆盖将数据写入 S3 分区文件夹上的每个数据。直到今天早上一切都很好。我检查了我的 S3 并committed_vacuum在我的日常分区中发现了一个。有谁知道这实际上意味着什么？

标签： apache-sparkamazon-s3databricks

解决方案

根据您可以在此处看到的 Databricks 文档，对我来说，该分区或出现故障并且文件未正确提交到 S3。这是 Databricks 提供的工具之一，其功能来自 Delta Lake 项目，允许并发写入。

所以你的工作可能失败了，或者提交没有正确发生，这committed_vacuum是未提交数据的结果。

推荐阅读