首页 > 解决方案 > 在 PBS 中运行 tensorflow 作业之前,我需要检查哪些关键功能?

问题描述

我正在尝试在 PBS 中运行深度学习作业(在 Tensorflow 中开发),但 1 周后我收到错误消息PBS: job killed: walltime 691231 exceeded limit 691200。我是 PBS 工作的新手,因此我想知道我应该更改哪些关键参数才能成功完成工作。我有大约 800k 数据补丁。我保持批量大小 32 和学习率 3e-2。我的系统的当前配置

node - we have 12, ppn - absolute max is 32

我的 .PBS 文件 ppn-4 的当前设置。我想我需要增加ppn的数量。为了获得更好的性能,我是否需要更改任何其他关键点?

标签: pythontensorflowpbs

解决方案


我们可以使用以下格式设置 PBS 墙壁时间。在您的情况下,默认情况下是 8 天(192 小时),所以工作在 192 小时后被杀死。

walltime 采用 hh:mm:ss 格式。

#PBS -l walltime=192:00:00

以下是检查配置的最大挂墙时间的命令。根据 "resources_max.walltime" ,您可以在脚本中设置值。

$ qmgr -c "列出队列批处理"

队列批处理

    resources_max.nodes = 16

   **resources_max.walltime = 24:00:00**
    ----

谢谢,Rajeswari Ponnuru。


推荐阅读