首页 > 解决方案 > 我们如何使用 gcloud 或 python 获取失败的 dataproc 作业及其开始时间的列表

问题描述

我们如何使用 gcloud 或 python 获取失败的 dataproc 作业列表及其开始时间?我在文档中没有看到太多关于此的信息。

标签: google-cloud-dataproc

解决方案


完全按照您的要求去做是很棘手的,但是这个命令几乎匹配它:

gcloud dataproc jobs list --filter="status.state=INACTIVE" --format="table(jobUuid,status.state,statusHistory[0].stateStartTime)"

这将打印出所有不再运行的作业的作业 UUID、最终状态和开始时间。

这与您所要求的不足之处在于,返回的列表包括所有失败、取消和完成的作业,而不仅仅是失败的作业。

问题是 Dataproc 作业列表 API 支持过滤作业状态,但仅适用于“ACTIVE”或“INACTIVE”的广泛类别。“非活动”类别包括状态为“错误”的作业,但也包括“完成”和“取消”。

我可以获得完整解决方案的最简单方法是将该命令的输出通过管道传输grep

gcloud dataproc jobs list --filter="status.state=INACTIVE" --format="table(jobUuid,status.state,statusHistory[0].stateStartTime)" | grep ERROR

那只会列出失败的作业,但它是 Unix 特定的。


推荐阅读