python - 如何将与 Databricks 作业相关的所有参数运行到 python 中?
问题描述
我正在尝试获取与 Databricks 作业相关的所有参数并将它们导入 python。这些参数应包括日期、开始时间、持续时间、作业状态(成功或失败)以及与之相关的所有其他参数。
我想使用这些参数使用 python 生成每日报告,该报告必须包含一周中每天成功或失败的所有作业的详细信息。
解决方案
您可以为此使用Databricks Jobs REST API - 您可以列出所有作业,并为每个作业获取所有运行。主要问题是您将一次又一次地抓取该 API。
另一种可能性是从Azure 上的诊断日志或AWS 上的审计日志中获取有关已执行日志的信息- 从中您可以获取有关哪些作业运行以及哪些 ID 与它们相关联的提取信息。然后,您可以使用get run API获取更详细的信息。
或者,您可以在您的工作空间中设置一个名为Overwatch的工具,它会为您收集所有这些信息,以及更多对于寻找非最佳工作、提供成本估算和许多其他功能非常有用的信息。
推荐阅读
- c# - Specflow - 场景大纲测试被忽略
- python - 使用来自另一列的滚动值的数据框百分位数
- javascript - 接受来自 javascript 的 Jquery.post 和 Python 的 request.post 的 json
- javascript - React JSX 错误期望在箭头函数的末尾有一个返回值
- javascript - 在 Cytoscape.js 中设置节点位置
- logging - Jboss EAP 6.3.3 (AS 7.4.3 final redhat 2) 如何在standalone-full.xml 中设置基于定期大小的日志记录
- c++ - 我对内存泄漏有什么不明白的地方?
- c - C语言,我的函数没有返回值,无法修复
- csv - azure ADF - 从查找活动中获取 .csv 文件的字段列表
- java - CardView 显示白色居中布局