首页 > 解决方案 > Pyspark 提交主纱线集群部署 - 日志位置

问题描述

我在 haddoop 集群上使用 spark-submit 命令提交了 pyspark 作业。命令如下

spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --num-executors 2 --executor-memory 1g --executor-cores 2 --py-files module_stm_extracts.py,module_table_compare.py datacheck,py

工作完成,但我从未在控制台中获得应用程序 ID。我如何找到应用程序日志,以便我可以查看

标签: pyspark

解决方案


您可以在 YARN 资源管理器 WebUI 中找到它,默认情况下可以通过主节点的 8088 端口访问它:http://<master_node_ip>:8088

或者您也可以通过命令行列出应用程序:

yarn application -list -appStates ALL

并使用 applicationId 使用以下命令获取日志:

yarn logs --applicationId <application_id>

推荐阅读