slurm - sbatch 将计算节点发送到“耗尽”状态
问题描述
在我们的小型集群中新安装和配置的计算节点上,我无法使用批处理脚本和“sbatch”命令提交 slurm 作业。提交后,请求的节点变为“drained”状态。但是,我可以使用“srun”以交互方式运行相同的命令。
作品:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'
不工作:
sbatch test.slurm
与test.slurm
:
#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug
echo 'test'
它给了我:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug up 1:00:00 1 drain node6
我必须恢复节点。
所有节点都运行 Debian 9.8,使用 Infiniband 和 NIS。我确保所有节点都具有相同的配置、软件包版本和运行的守护进程。所以,我看不出我错过了什么。
解决方案
似乎该问题与当前的 NIS 有关。只需要在 /etc/passwd 的末尾添加这一行:
+::::::
并在节点上重新启动 slurmd:
/etc/init.d/slurmd restart
推荐阅读
- c++ - 为什么期望引用的函数与指针一起工作?
- android-studio - 类型参数不在其范围内预期:任何找到:字符串
- performance - 为 Apache prefork 的每个虚拟主机保留工作人员
- python - 找不到 pyuic5 命令,我做了一切,但仍然得到同样的错误
- localization - 如何处理 i18next 键名中的长文本?
- javascript - 是否可以使用变量调用函数?
- go - 为什么 for-range 的行为会根据切片结构的大小而有所不同?
- java - 启动 Windows 10 Paint3D 以打开特定图像文件
- angular - Angular Httpclient有CORS错误vs但没有获取
- java - SQL Java中的参数索引超出范围使用phmyadmin