python - spark-submit 作业在集群模式下不起作用
问题描述
我正在尝试在集群模式下使用 spark-submit 执行 python 文件。有人可以建议我在这样做之前我需要做什么作为它的错误吗?
我已经尝试将 master 作为纱线,并且在没有集群模式的情况下运行良好。
test_cluster.py
:
from pyspark.sql import SparkSession
spark=
SparkSession.builder().appName("test").master("yarn").getOrCreate()
执行命令:
spark-submit --master yarn --deploy-mode cluster test_cluster.py
纱线日志:
由于 AM Container for appattempt_1557254378595_0020_000002 退出,应用程序 application_1557254378595_0020 失败 2 次,退出代码:13 失败。诊断:[2019-05-07 22:20:22.422] 容器启动异常。容器 ID:container_1557254378595_0020_02_000001 退出代码:13 [2019-05-07 22:20:22.424]容器以非零退出代码 13 退出。错误文件:prelaunch.err。prelaunch.err 的最后 4096 个字节:stderr 的最后 4096 个字节:19/05/07 22:20:21 错误 org.apache.spark.deploy.yarn.ApplicationMaster:用户应用程序以状态 1 19/05/07 22 退出: 20:21 错误 org.apache.spark.deploy.yarn.ApplicationMaster:未捕获的异常:org.apache.spark.SparkException:在 awaitResult 中抛出异常:在 org.apache.spark.util.ThreadUtils$.awaitResult(ThreadUtils.scala: 205)在 org.apache.spark.deploy。
解决方案
不幸的是,集群部署模式不适用于 Python 应用程序,如此处所述。
您可以尝试客户端部署模式。
推荐阅读
- elasticsearch - 为什么 elasticsearch 的 Nest 低级搜索方法忽略 SearchDescriptor<>() 对象中定义的类型和索引名称
- c++ - 在链表中使用节点指针如何改变递归?
- r - 数据集中列的网络分析和停用词的使用
- c# - 在单个循环中打印帕斯卡三角形值
- c++ - 我可以在主线程之外的 macOS 上使用 SDL2 轮询事件吗?
- graphql - 是否可以将订阅参数映射到突变输出的数组?
- python-3.x - 无法使用散景/全息视图导出图像
- python - gunicorn.errors.HaltServer 同时部署到谷歌云运行 python 应用程序
- node.js - Mongodb nodejs查询不起作用,即使它应该
- delphi - 在delphi中取消文件对话框时如何防止I / O 6