首页 > 解决方案 > sbatch 将计算节点发送到“耗尽”状态

问题描述

在我们的小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和“sbatch”命令提交 slurm 作业。提交后,请求的节点变为“drained”状态。但是,我可以使用“srun”以交互方式运行相同的命令。

作品:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'

不工作:
sbatch test.slurm
test.slurm

#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug

echo 'test'

它给了我:

PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug         up    1:00:00      1  drain node6

我必须恢复节点。

所有节点都运行 Debian 9.8,使用 Infiniband 和 NIS。我确保所有节点都具有相同的配置、软件包版本和运行的守护进程。所以,我看不出我错过了什么。

标签: slurmsbatch

解决方案


似乎该问题与当前的 NIS 有关。只需要在 /etc/passwd 的末尾添加这一行:

+::::::

并在节点上重新启动 slurmd:

/etc/init.d/slurmd restart

推荐阅读