首页 > 解决方案 > 如何预测 MPI 进程被杀死

问题描述

寻找有关以下问题的一些建议。

我在 SLURM 系统上使用 mpi4py 运行了许多作业。我注意到,当给定的工作太大(即要处理的数据太多)时,我会收到以下错误:

mpirun noticed that process rank 0 with PID 62208 on node node1 exited on signal 9 (Killed).

我曾尝试在提交之前将一些作业分解为更小的块,但我想知道是否有一种方法可以预测 Killed 信号并添加一个 except 语句以在需要时将作业分解为块。

标签: pythonmpislurmmpi4py

解决方案


KILL 信号不能被捕获、阻止或忽略,但它通常前面有一个 INT 或 TERM 信号,您可以捕获并借此机会采取行动。在这里查看INT 信号的 Python 示例


推荐阅读