首页 > 解决方案 > 如何使用 spark submit 提交 pyspark 作业?

问题描述

我正在使用 Spark 2.4.3 版本。这个命令是否足以提交作业?

火花提交 accum.py /home/karthi/accm.txt

在哪里提交这个命令?

标签: pythonapache-sparkpyspark

解决方案


是的,如果你想提交一个带有 Python 模块的 Spark 作业,你必须运行spark-submit module.py.

Spark 是一个分布式框架,因此当您提交作业时,这意味着您在集群中“发送”作业。但是,您也可以使用相同的命令(独立模式)轻松地在您的机器上运行它。

您可以在 Spark 官方文档中找到示例:https ://spark.apache.org/docs/2.4.3/submitting-applications.html

注意:为了运行 spark-submit,您有两个选择:

转到 /path/to/spark/bin 并运行spark-submit /path/to/module.py

或者在 .bashrc 中添加以下内容并在任何地方使用 run-submit

export SPARK_HOME=/usr/local/spark 
export PATH=$PATH:$SPARK_HOME/bin

推荐阅读