slurm - Slurm 作业排队但未运行
问题描述
我正在尝试在运行 Ubuntu 的 Virtualbox 上安装 slurm。我们使用它通过 Web 界面运行长时间运行的作业,我们使用 slurm 来排队和运行作业。我正在使用 VirtualBox 创建一个用于开发的沙箱。
我已经设置了 slurm,但是当我排队作业并运行 squeue 时,我得到:
$ squeue
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
2 debug test.sh pchandle PD 0:00 1 (Nodes required for job are DOWN, DRAINED or reserved for jobs in higher priority partitions)
当我在我的实际硬件上运行它时,作业运行成功。
sinfo 的输出是:
$ sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 0 n/a
是的,它说节点为 0,但在我的实际硬件上输出是相同的,并且作业运行良好。关于为什么说 0 个节点的任何建议?
这是我的设置问题,还是由于硬件限制根本无法在 VirtualBox 上运行 slurm?我正在运行 4 个 CPU。我能看到的唯一明显区别是每个内核的线程只有 1 个(我的本地硬件上有 2 个)。
无论如何要调试为什么节点没有运行作业?或者为什么没有可用的节点?
解决方案
原来是配置错误。
在配置文件 /etc/slurm-llnl/slurm.conf 中,我将配置 NodeName 保留为默认 NodeName=localhost[0-31]。由于我在单个主机上运行,因此应该将同一台机器上的单个节点设置为 NodeName=localhost。
Slurm Single Instance对应该设置的值进行了描述,这帮助我找到了答案。
在独立的 Ubuntu 上安装 Slurm有我最初遵循的说明。
推荐阅读
- linux - 如何记录每个命令的持续时间/结果并使用“历史”显示此信息?
- javascript - 对象作为 React 子对象无效(找到:带有键 {this} 的对象)。如果您打算渲染一组孩子,请改用数组
- c# - NLog GetCurrentClassLogger() 抛出 TypeInitializationException
- matlab - 当我对信号进行零填充时,为什么原始信号的 fft 和零填充信号不再围绕同一点连接?
- reactjs - 如何防止 keyup 事件冒泡到 MUI Snackbar?
- python - 如何在Python中循环时将数字添加到int
- java - 如何使用 Java/Spring Boot 代码从服务器下载和保存 Zip 文件?
- javascript - 在 localhost(无 Web 服务器)和服务器环境下按需加载/运行 JavaScript
- python - TensorFlow 对象检测 API 示例的高效数据管道
- android - 使用 volley 在正文中发布带有传递列表的请求