slurm - SLURM 无法连接到本地机器上的控制器
问题描述
我试图在我的本地机器上运行 SLURM 以在部署到 HPC 之前执行一些配置测试,但我在配置它时遇到了麻烦,我希望在这里找到帮助。
我使用 ubuntu 运行 docker,根据 SLRUM 安装说明安装了 munge 和 slurm。
我在这里创建了一个配置文件:
# slurm.conf file generated by configurator.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ClusterName=7e51ce889cd1
SlurmctldHost=7e51ce889cd1
MpiDefault=none
ProctrackType=proctrack/linuxproc
ReturnToService=1
SlurmctldPidFile=/var/run/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
StateSaveLocation=/var/spool/slurmctld
SwitchType=switch/none
TaskPlugin=task/affinity
# TIMERS
InactiveLimit=0
KillWait=30
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
# SCHEDULING
DefMemPerCPU=8192
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
JobCompLoc=/var/log/jobcompletion
JobCompType=jobcomp/filetxt
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
# COMPUTE NODES
NodeName=7e51ce889cd1 CPUs=1 Sockets=1 CoresPerSocket=4 ThreadsPerCore=2
PartitionName=7e51ce889cd1 Nodes=ALL Default=YES MaxTime=INFINITE State=UP
运行我的 docker 并运行后
service slurmd start
service slurmctld start
sinfo
我收到以下错误:
slurm_load_partitions: Unable to contact slurm controller (connect failure)
有人可以帮我解决这个问题吗?
祝你今天过得愉快
塞巴斯蒂安
解决方案
推荐阅读
- docker - 想升级 elastissearch 版本到 7.7 使用官方的 elasticsearch docker 镜像而不是自定义的 docker 镜像进行升级
- javascript - swiper.js - 响应式缩略图 - 在移动设备上是水平的,在桌面上是垂直的
- shell - 在 osgi/kura 堆栈上运行 shell 命令
- project-reactor - Reactor Framework (Flux) - java.lang.OutOfMemoryError:直接缓冲内存
- sql - IF 内的 SQL IF
- javascript - 根据共享点中是/否(复选框)字段的值启用或禁用字段
- javascript - 这个三元运算符表达式的等价物是什么?
- javascript - 从嵌套在对象属性中的数组中提取数据
- c++ - 调用 aruco::detectMarkers crash 时 Opencv 停止
- gulp - 寻找一个 Gulp 插件,它将根据特定的标题属性跳过降价文件