mpi - OpenMPI mpirun 在给出“failed-daemon-launch”错误后挂起
问题描述
当多个节点关闭且无法通过 ssh 连接时,mpirun 会出现以下错误并永远挂起。在这种情况下,预期的行为应该以错误代码终止,但它正在挂起。
ORTE 无法可靠地启动一个或多个守护程序。这通常是由以下原因引起的:
在一个或多个节点上找不到所需的库和/或二进制文件。请检查您的 PATH 和 LD_LIBRARY_PATH 设置,或使用 --enable-orterun-prefix-by-default 配置 OMPI
缺乏在一个或多个指定节点上执行的权限。请核实您的分配和权限。
无法将启动文件写入 /tmp (--tmpdir/orte_tmpdir_base)。请与您的系统管理员联系以确定要使用的正确位置。
当需要静态时(例如,在 Cray 上),使用动态库编译 orted。请检查您的配置 cmd 行并考虑为您的系统类型使用 contrib/platform 定义之一。
由于缺乏通用网络接口和/或在它们之间找不到路由,无法创建与 mpirun 的连接。请检查网络连接(包括防火墙和网络路由要求)。——————————————————————————————————————————————————</p >
mpirun 是否在后台执行任何操作?在这种情况下,我可以添加任何配置以使 mpirun 退出吗?
解决方案
推荐阅读
- sql - T-SQL - 将更多日期值添加到表中的所有行
- docker - 如何在 Docker 和主机上处理同一非 root 用户的权限?
- swift - Tableview 只允许有限的复选框按钮
- python - 我无法从 python 连接 pwnedpasswords API
- python - 从列表中的网站抓取图像
- angular - Angular 8:使用 addControl 方法时传递禁用属性不起作用
- javascript - TypeError:无法读取 nodeJS 中未定义的属性“findIndex”
- javafx - JavaFX的WebEngine中选择元素显示错误
- javascript - 我在 node.js 中使用 Promise 的错误在哪里
- javascript - 自 2 月 20 日起适用于第 3 方 cookie 的 Samesite 和 Secure