slurm - 如何检查 SLURM 批处理作业中仍在运行哪些任务?
问题描述
在 SLURM 中调度批处理作业时,例如
sbatch -N 10 batch-script.sh
#!/bin/bash
#SBATCH --job-name=jobname
srun --label /usr/bin/hostname
可以检查当前正在运行的步骤sacct
:
JobID JobName Partition Account AllocCPUS State ExitCode
------------ ---------- ---------- ---------- ---------- ---------- --------
...
421.1 hostname test 10 RUNNING 0:0
但是如何检查当前步骤中哪些任务/节点仍在运行以及哪些已完成?(在这种情况下,每个节点只有 1 个任务。)我在文档中找到的唯一选项是设置--task-epilog
命令并在每个任务完成时记录一些内容。
例如,很高兴看到 10 个节点中有 8 个已经完成了它们的任务,并且node03
仍在node08
运行它们的任务。
解决方案
squeue
您可以使用该命令查看哪些节点处于活动状态。要仅筛选您可以执行的作业squeue -u [yourname]
。要始终保持更新,您可以这样做watch -n 1 "squeue -u [yourname]"
。
推荐阅读
- android - ListView 不显示来自 HashMap 的数据
- java - 在 Selenium 中,如何访问 ChromeDriver 哪个路径放在另一个类中?
- c# - Foreach 循环在使用块内部的工作方式与在外部不同?
- python - 如何在 Tensorflow 中调整尺寸未知的图像大小(tf.shape(input) 方法不起作用)
- outlook - OWA 加载项:无法获取电子邮件地址
- html - 如何修复 flex-direction: column 如何让前两个元素是行方向最后一列的 flex
- java - 在 JavaFX 中的阶段之间创建延迟
- android - 在 Android Studio 中显示“运行任务”错误
- elasticsearch - ELASTICSEARCH:逗号分隔列表与标准分析仪给出不一致的结果
- tensorflow - TFJS-转换器 | 如何将 faster_cnn_inception_v2_coco 转换为 tfjs 格式?