pyspark - 使用 pyspark 同时编写 parquet 文件

问题描述

在 Azure Databricks 中，我想使用 python / pyspark 从多个笔记本同时写入同一组镶木地板文件。我对目标文件进行了分区，因此分区是不相交的/独立编写的，根据databricks docs支持。

但是，我的集群日志中不断出现错误，并且其中一个并发写入操作失败：

Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics

这是写入镶木地板文件的基本路径。

为什么会这样？_SUCCESS 文件有什么用？我可以以某种方式禁用它们以避免此问题吗？

标签： pysparkdatabricksparquetazure-databricks

_SUCCESS是一个空文件，在过程的最后写入以确认一切正常。

您提供的链接仅关于 delta，这是一种特殊格式。显然，您正在尝试编写 parquet 格式文件，而不是 delta 格式。这就是你们发生冲突的原因。

pyspark - 使用 pyspark 同时编写 parquet 文件

问题描述

解决方案

推荐阅读