python - 在 PBS 中运行 tensorflow 作业之前,我需要检查哪些关键功能?
问题描述
我正在尝试在 PBS 中运行深度学习作业(在 Tensorflow 中开发),但 1 周后我收到错误消息PBS: job killed: walltime 691231 exceeded limit 691200
。我是 PBS 工作的新手,因此我想知道我应该更改哪些关键参数才能成功完成工作。我有大约 800k 数据补丁。我保持批量大小 32 和学习率 3e-2。我的系统的当前配置
node - we have 12, ppn - absolute max is 32
我的 .PBS 文件 ppn-4 的当前设置。我想我需要增加ppn的数量。为了获得更好的性能,我是否需要更改任何其他关键点?
解决方案
我们可以使用以下格式设置 PBS 墙壁时间。在您的情况下,默认情况下是 8 天(192 小时),所以工作在 192 小时后被杀死。
walltime 采用 hh:mm:ss 格式。
#PBS -l walltime=192:00:00
以下是检查配置的最大挂墙时间的命令。根据 "resources_max.walltime" ,您可以在脚本中设置值。
$ qmgr -c "列出队列批处理"
队列批处理
resources_max.nodes = 16
**resources_max.walltime = 24:00:00**
----
谢谢,Rajeswari Ponnuru。
推荐阅读
- javascript - 用护照注册后,我无法设置 Authorization Bearer 标头
- python - Pygame colliderect 无法正常工作
- javascript - React Leaflet:有没有办法制作一个添加标记并使用该标记位置更新状态的 onClick 方法?(初学者反应)
- python - python 无法正确遍历列表
- javascript - 如何在不丢失 Express 令牌的情况下重定向用户
- angular - 将 Angular 部署到 Heroku 时缺少:'NgxWebstorageModule@5.0.0
- javascript - 如何防止对象属性被覆盖
- python - FFMPEG 仅在写入管道时引发异常
- linux - 如何通过在 bash 中输入来更改文件参数
- clojure - 如何访问向量内的向量中的所有第二个元素?