首页 > 解决方案 > SLURM - 连接 slurm 流套接字时出错 - 连接被拒绝

问题描述

我正在尝试仅使用一名工人配置 slurm。这是配置:

ControlMachine=slurmserver ----> hostname -s
ControlAddr=A.B.C.D ----> hostname -i
NodeName=worker-[1-1] CPUs=1   State=UNKNOWN
PartitionName=debug Nodes=worker-[1-1] Default=YES MaxTime=INFINITE State=UP

slurmserver节点上,我尝试从 jupyterhub 容器中提交slurm作业(一个简单的)。srun echo "Hello"slurmd我看到的日志中:

[2021-07-01T10:51:49.138] [59.0] debug2: Error connecting slurm stream socket at 172.17.6.75:34027: Connection refused
[2021-07-01T10:51:49.139] [59.0] debug:  _send_srun_resp_msg: 5/5 failed to send msg type 6002: Connection refused
[2021-07-01T10:51:49.139] [59.0] error: _send_launch_resp: Failed to send RESPONSE_LAUNCH_TASKS: Connection refused

我也试过打开 32768-60999 端口,但还是不行。

有什么建议吗?

标签: slurm

解决方案


推荐阅读