首页 > 解决方案 > 跟踪 spark-submit 的所有参数

问题描述

我有一个团队,其中许多成员有权通过命令行将 Spark 任务提交给 YARN(资源管理)。很难跟踪谁在使用多少内核,谁在使用多少内存……例如,现在我正在寻找可以帮助我监控每个成员使用的参数的软件、框架或其他东西。它将成为客户端和 YARN 之间的桥梁。然后我可以用它来过滤提交命令。

我确实看过mlflow,我真的很喜欢 MLFlow Tracking,但它是为 ML 训练过程而设计的。我想知道我的目的是否有替代方案?或者该问题有任何其他解决方案。

谢谢!

标签: apache-sparkparametershadoop-yarnspark-submitmlflow

解决方案


我的建议是自己构建这样一个工具,因为它不太复杂,有一个包装器脚本来触发提交,它记录数据库中的使用情况,并且在火花作业完成后,包装器将知道发布信息。可以很容易地完成。此外,如果您的团队已经要求提供太多信息,您甚至可以阻止新的 spark 提交。

当你自己构建它时,它真的很灵活,因为你甚至可以创建“子团队”或任何你想要的东西。


推荐阅读