首页 > 解决方案 > spark-submit 作业在集群模式下不起作用

问题描述

我正在尝试在集群模式下使用 spark-submit 执行 python 文件。有人可以建议我在这样做之前我需要做什么作为它的错误吗?

我已经尝试将 master 作为纱线,并且在没有集群模式的情况下运行良好。

test_cluster.py

from pyspark.sql import SparkSession
spark= 
SparkSession.builder().appName("test").master("yarn").getOrCreate()

执行命令:

 spark-submit --master yarn --deploy-mode cluster test_cluster.py

纱线日志:

由于 AM Container for appattempt_1557254378595_0020_000002 退出,应用程序 application_1557254378595_0020 失败 2 次,退出代码:13 失败。诊断:[2019-05-07 22:20:22.422] 容器启动异常。容器 ID:container_1557254378595_0020_02_000001 退出代码:13 [2019-05-07 22:20:22.424]容器以非零退出代码 13 退出。错误文件:prelaunch.err。prelaunch.err 的最后 4096 个字节:stderr 的最后 4096 个字节:19/05/07 22:20:21 错误 org.apache.spark.deploy.yarn.ApplicationMaster:用户应用程序以状态 1 19/05/07 22 退出: 20:21 错误 org.apache.spark.deploy.yarn.ApplicationMaster:未捕获的异常:org.apache.spark.SparkException:在 awaitResult 中抛出异常:在 org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala: 205)在 org.apache.spark.deploy。

标签: pythonapache-sparkhadoop

解决方案


不幸的是,集群部署模式不适用于 Python 应用程序,如此处所述

您可以尝试客户端部署模式。


推荐阅读