首页 > 解决方案 > 已解决:google Cloudml BASIC TIER 中的设备上没有剩余空间。cloudml中每一层的磁盘大小是多少?

问题描述

在 Cloud ML 的 BASIC 层中为大于 20GB 的数据训练我的模型时,我的工作失败了,因为 Cloudml 机器中没有可用的磁盘空间,而且我无法在 gcloud ml 文档中找到任何详细信息 [ https://cloud. google.com/ml-engine/docs/tensorflow/machine-types]

在确定我的培训工作的 TIER 时需要帮助,而且工作详细信息图表中的利用率也非常低。

Expand all | Collapse all {
insertId:  "1klpt2"  
jsonPayload: {
created:  1554434546.3576794   
levelname:  "ERROR"   
lineno:  51   
message:  "Failed to train : [Errno 28] No space left on device"   
pathname:  "/root/.local/lib/python3.5/site- 
packages/loggerwrapper.py"   
}
labels: {
compute.googleapis.com/resource_id:  ""   
compute.googleapis.com/resource_name:  "cmle-training- 
10361805218452604847"   
compute.googleapis.com/zone:  ""   
ml.googleapis.com/job_id/log_area:  "root"   
ml.googleapis.com/trial_id:  ""   
}
logName:  "projects/backend/logs/master-replica-0"  
receiveTimestamp:  "2019-03-31T12:32:30.07683Z"  
resource: {
labels: {
job_id:  ""    
project_id:  "backend"    
task_name:  "master-replica-0"    
}
type:  "ml_job"   
}
severity:  "ERROR"  
timestamp:  "2019-03-31T12:32:26.357679367Z"   
}

标签: google-cloud-ml

解决方案


已解决:此错误不是因为存储空间而出现,而是因为共享内存 tmfs。sklearn fit 在训练时消耗了所有共享内存。解决方案:将JOBLIB_TEMP_FOLDER 环境变量设置为 /tmp 即可解决问题。


推荐阅读