首页 > 解决方案 > 从 spark 代码更改单个作业的临时路径

问题描述

我有多个要并行执行的作业,这些作业使用动态分区将每日数据附加到同一路径中。

我面临的问题是spark在作业执行期间创建的临时路径。多个作业最终共享同一个临时文件夹并导致冲突,这可能导致一个作业删除临时文件,而另一个作业失败并出现错误,指出预期的临时文件不存在。

我们可以更改个别工作的临时路径还是有任何替代方法来避免问题

标签: apache-sparkdatabricks

解决方案


要更改临时位置,您可以执行以下操作:

/opt/spark/bin/spark-shell --conf "spark.local.dir=/local/spark-temp"

spark.local.dir 更改读取和写入所有临时文件的位置,我建议在运行带有此参数的第一个会话之前通过命令行构建和打开此位置的位置。


推荐阅读