pyspark - Pyspark 提交主纱线集群部署 - 日志位置
问题描述
我在 haddoop 集群上使用 spark-submit 命令提交了 pyspark 作业。命令如下
spark-submit --master yarn --deploy-mode cluster --driver-memory 1g --num-executors 2 --executor-memory 1g --executor-cores 2 --py-files module_stm_extracts.py,module_table_compare.py datacheck,py
工作完成,但我从未在控制台中获得应用程序 ID。我如何找到应用程序日志,以便我可以查看
解决方案
您可以在 YARN 资源管理器 WebUI 中找到它,默认情况下可以通过主节点的 8088 端口访问它:http://<master_node_ip>:8088
或者您也可以通过命令行列出应用程序:
yarn application -list -appStates ALL
并使用 applicationId 使用以下命令获取日志:
yarn logs --applicationId <application_id>
推荐阅读
- c# - 保存“结果文件夹”的日期问题
- node.js - beforeUpdate 续集
- python - 如何停止运行不和谐的机器人进程(python)
- java - 如何将此 JSON 转换为 JAVA android 中的对象?
- c++ - 为什么这会导致Seg。故障,如何使用 GDB 调试它?
- c - 无法对动态分配节点的链表进行排序
- python - 在第一个空格之后排序列表项,然后是相同的单词
- node.js - 删除类的对象实例-NodeJS
- azure-logic-apps - Azure 事件中心日志使用查询对流进行排序
- c++ - c++中的`function() const &`中的`&`是什么?