google-cloud-ml - 已解决:google Cloudml BASIC TIER 中的设备上没有剩余空间。cloudml中每一层的磁盘大小是多少?
问题描述
在 Cloud ML 的 BASIC 层中为大于 20GB 的数据训练我的模型时,我的工作失败了,因为 Cloudml 机器中没有可用的磁盘空间,而且我无法在 gcloud ml 文档中找到任何详细信息 [ https://cloud. google.com/ml-engine/docs/tensorflow/machine-types]。
在确定我的培训工作的 TIER 时需要帮助,而且工作详细信息图表中的利用率也非常低。
Expand all | Collapse all {
insertId: "1klpt2"
jsonPayload: {
created: 1554434546.3576794
levelname: "ERROR"
lineno: 51
message: "Failed to train : [Errno 28] No space left on device"
pathname: "/root/.local/lib/python3.5/site-
packages/loggerwrapper.py"
}
labels: {
compute.googleapis.com/resource_id: ""
compute.googleapis.com/resource_name: "cmle-training-
10361805218452604847"
compute.googleapis.com/zone: ""
ml.googleapis.com/job_id/log_area: "root"
ml.googleapis.com/trial_id: ""
}
logName: "projects/backend/logs/master-replica-0"
receiveTimestamp: "2019-03-31T12:32:30.07683Z"
resource: {
labels: {
job_id: ""
project_id: "backend"
task_name: "master-replica-0"
}
type: "ml_job"
}
severity: "ERROR"
timestamp: "2019-03-31T12:32:26.357679367Z"
}
解决方案
已解决:此错误不是因为存储空间而出现,而是因为共享内存 tmfs。sklearn fit 在训练时消耗了所有共享内存。解决方案:将JOBLIB_TEMP_FOLDER 环境变量设置为 /tmp 即可解决问题。
推荐阅读
- ios - swiftUI:登录完成后导航到主屏幕。通过按钮单击导航视图
- python - python regex) 模式 '\d-\d' 和字符串 '1-4-1'
- c# - 如何将 Unity 脚本应用于多个图层?
- node.js - 有没有办法在托管平台上部署我的应用程序?
- android - Kotlin 如何在没有 viewBinding.enabled = true 的情况下找到小部件?
- javascript - 添加/删除活动类 JavaScript
- php - 如何修复“方法 kartik\form\ActiveField::__toString() 不能抛出异常,捕获错误:在 null 上调用成员函数 formName()”?
- c# - 表单设计器视图在 Visual Studio 2019 C# CMake 项目中不可用
- javascript - 将日期字符串解析为 JavaScript 中已经是对象一部分的日期?(包括代码)
- ios - 调用中的额外参数“用户名”-WatsonCloud SpeechToTextV1