首页 > 解决方案 > 使用客户端扩展作业队列集群

问题描述

我有一个jobqueue Slurm Cluster,我正在另一个程序中将一个客户端连接到它。我集群正在使用根据工作负载调整更多作业。但有时 Slurm 调度程序不会立即给我我的工人。然后 Dask 只在少数可用的工人上运行我的任务,他们被杀死了。现在我想确保 dask 仅在有足够的工作人员可用时才运行我的任务。Client.wait_for_workers(x)没有做到这一点,因为集群x在任务启动之前不会请求工作人员。那么我该怎么做

client.request(x)
client.wait_for_workers(x)
client.compute(task)
client.unrequest()

最后一行确保当我不再需要 slurm 作业时它们会被取消

标签: daskdask-distributeddask-jobqueue

解决方案


推荐阅读