pyspark - 使用 pyspark 同时编写 parquet 文件
问题描述
在 Azure Databricks 中,我想使用 python / pyspark 从多个笔记本同时写入同一组镶木地板文件。我对目标文件进行了分区,因此分区是不相交的/独立编写的,根据databricks docs支持。
但是,我的集群日志中不断出现错误,并且其中一个并发写入操作失败:
Py4JJavaError: An error occurred while calling o1033.save.
: org.apache.spark.SparkException: Job aborted.
...
Caused by: org.apache.hadoop.fs.PathIOException: `<filePath>/_SUCCESS': Input/output error: Parallel access to the create path detected. Failing request to honor single writer semantics
这是写入镶木地板文件的基本路径。
为什么会这样?_SUCCESS 文件有什么用?我可以以某种方式禁用它们以避免此问题吗?
解决方案
_SUCCESS
是一个空文件,在过程的最后写入以确认一切正常。
您提供的链接仅关于 delta,这是一种特殊格式。显然,您正在尝试编写 parquet 格式文件,而不是 delta 格式。这就是你们发生冲突的原因。
推荐阅读
- zalenium - Zalenium 日志文件存储在哪里
- database - 使用响应文件静默安装 IBM 数据服务器客户端,有人尝试安装在 D 盘吗?
- scala - 将数据框列转换为 spark scala 中的逗号分隔值
- excel - 宏将范围从 CSV 复制到 excel 错误
- javascript - 如何用 Web URL 替换 HTML 文件输入?
- c++ - 我如何获得号码的变化
- bash - 如何在 || 中收集命令 陈述?
- r - 如何打印R中变量内的数据条目数?
- python - 访问多输出线性回归模型的权重/系数
- javascript - 如何在 JavaScript 字符串中的新窗口中打开链接?