apache-spark - 跟踪 spark-submit 的所有参数
问题描述
我有一个团队,其中许多成员有权通过命令行将 Spark 任务提交给 YARN(资源管理)。很难跟踪谁在使用多少内核,谁在使用多少内存……例如,现在我正在寻找可以帮助我监控每个成员使用的参数的软件、框架或其他东西。它将成为客户端和 YARN 之间的桥梁。然后我可以用它来过滤提交命令。
我确实看过mlflow,我真的很喜欢 MLFlow Tracking,但它是为 ML 训练过程而设计的。我想知道我的目的是否有替代方案?或者该问题有任何其他解决方案。
谢谢!
解决方案
我的建议是自己构建这样一个工具,因为它不太复杂,有一个包装器脚本来触发提交,它记录数据库中的使用情况,并且在火花作业完成后,包装器将知道发布信息。可以很容易地完成。此外,如果您的团队已经要求提供太多信息,您甚至可以阻止新的 spark 提交。
当你自己构建它时,它真的很灵活,因为你甚至可以创建“子团队”或任何你想要的东西。
推荐阅读
- react-native - 如何将 react-native-datetime-modal-picker 与输入一起使用?
- c# - 无法打开当前在 VS 2019 中不可用的终端窗口?
- c - 未能尝试使用线程和计时器通过 UDP 发送两条不同的消息
- python - 将列表中的一些对象转换为 int
- java - 为什么我的 JLabels 在相同的空间打印出来?
- c++ - 获取构建错误:错误 C2011:'ProfileSettings':'class' 类型重新定义
- c++ - 在 MSVC 上包含 windows.h 时,godbolt 无法链接?
- ios - 对于 iOS 13 深色模式,文本字段中的标签和文本会自动变为白色
- kubernetes - 安装 ICP 和 Kubernetes
- scala - 在 Scala 中为解析器组合器创建测试