首页 > 解决方案 > 创建多头节点 hpc 集群

问题描述

我有一个 HPC 集群,其中几个 webapps 安装在 docker 容器中,队列使用 Torque 管理。每个应用程序都向通过 ssh 连接到它的 HPC 集群提交作业,然后运行 ​​qsub: ssh user@cluster qsub bla blabla。有用于交换数据的共享文件夹。

我对这个设置不满意,我想知道是否可以在每个 docker 上运行一个主节点并直接在其中使用 qsub 而无需进行 ssh 连接。我更喜欢使用扭矩,但我对其他解决方案持开放态度。

标签: cluster-computinghpctorque

解决方案


Torque 允许多个提交主机。

主机的名称或地址应添加到submit_hostsTorque 服务器配置中的变量这里是手册中的相关页面。

qmgr -c 'set server submit_hosts = headnode'
qmgr -c 'set server submit_hosts += app1'
qmgr -c 'set server submit_hosts += app2'

假设app1app2是 docker 容器的域名。您将需要配置名称解析。

有关更多详细信息和其他选项,请参阅扭矩手册


推荐阅读