python - 错误:“副本主机 0 内存不足并在训练时以非零状态 9(SIGKILL) 退出”
问题描述
我正在尝试使用ML-Engine
. 我的数据库有大约 40 000 张猫和狗的图像以及边界框,大小为~6GB
. 当我尝试启动培训时,出现以下错误:
ERROR 2018-08-14 12:05:57 +0200 service
The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
To find out more about why your job exited please check the logs: (....)
我尝试从BASIC_GPU
config 切换到STANDARD_1
,但这并没有改变任何东西。
如果我训练一个较小的数据集,它可以正常工作,但是对于这个较大的数据集,它总是会因这个错误而终止。
非常感谢任何帮助。
解决方案
通过将所有数据读入 RAM,内存不足。解决方案是获取更大的实例类型(例如large_model
,或complex_model_l
;有关更多详细信息,请参阅机器类型的文档)或不一次读取所有数据。
对于后者,请参阅tf.data上的文档。您还可以参考tf.data API 之前的flowers sample 。
推荐阅读
- python - __str__(self) 函数不适用于在 Python 中打印对象
- accordion - Bootstrap手风琴(点击按钮,手风琴的所有其他部分应关闭并隐藏在显示中)
- c# - 如何在同一个应用程序中触发天蓝色功能
- r - 将表列表更改为 R 中的 data.frame
- algorithm - 如何检查流网络是否包含唯一的最大流量?
- javascript - 什么是创建动态更新 N 个 HTML 输出的 N 个文本字段输入的非天真或优雅的方式?
- c++ - 在特定的儿童情况下未能渗透到 MIN 二元堆
- angular - @angular-redux/store:如何为 redux store 编写单元测试?
- css - React Web 导航栏树形菜单激活
- python - 如何将字符串添加到列表的每个值,然后使该字符串的值向上计数?