首页 > 解决方案 > 错误:“副本主机 0 内存不足并在训练时以非零状态 9(SIGKILL) 退出”

问题描述

我正在尝试使用ML-Engine. 我的数据库有大约 40 000 张猫和狗的图像以及边界框,大小为~6GB. 当我尝试启动培训时,出现以下错误:

ERROR   2018-08-14 12:05:57 +0200   service
  The replica master 0 ran out-of-memory and exited with a non-zero status of 9(SIGKILL).
  To find out more about why your job exited please check the logs: (....) 

我尝试从BASIC_GPUconfig 切换到STANDARD_1,但这并没有改变任何东西。

如果我训练一个较小的数据集,它可以正常工作,但是对于这个较大的数据集,它总是会因这个错误而终止。

非常感谢任何帮助。

标签: pythongoogle-cloud-platformgoogle-cloud-ml

解决方案


通过将所有数据读入 RAM,内存不足。解决方案是获取更大的实例类型(例如large_model,或complex_model_l;有关更多详细信息,请参阅机器类型的文档)或不一次读取所有数据。

对于后者,请参阅tf.data上的文档。您还可以参考tf.data API 之前的flowers sample 。


推荐阅读