首页 > 解决方案 > Slurm 作业排队但未运行

问题描述

我正在尝试在运行 Ubuntu 的 Virtualbox 上安装 slurm。我们使用它通过 Web 界面运行长时间运行的作业,我们使用 slurm 来排队和运行作业。我正在使用 VirtualBox 创建一个用于开发的沙箱。

我已经设置了 slurm,但是当我排队作业并运行 squeue 时,我得到:

$ squeue
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
                 2     debug  test.sh pchandle PD       0:00      1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)

当我在我的实际硬件上运行它时,作业运行成功。

sinfo 的输出是:

$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug*       up   infinite      0    n/a 

是的,它说节点为 0,但在我的实际硬件上输出是相同的,并且作业运行良好。关于为什么说 0 个节点的任何建议?

这是我的设置问题,还是由于硬件限制根本无法在 VirtualBox 上运行 slurm?我正在运行 4 个 CPU。我能看到的唯一明显区别是每个内核的线程只有 1 个(我的本地硬件上有 2 个)。

无论如何要调试为什么节点没有运行作业?或者为什么没有可用的节点?

标签: slurm

解决方案


原来是配置错误。

在配置文件 /etc/slurm-llnl/slurm.conf 中,我将配置 NodeName 保留为默认 NodeName=localhost[0-31]。由于我在单个主机上运行,​​因此应该将同一台机器上的单个节点设置为 NodeName=localhost。

Slurm Single Instance对应该设置的值进行了描述,这帮助我找到了答案。

在独立的 Ubuntu 上安装 Slurm有我最初遵循的说明。


推荐阅读