google-cloud-platform - 在云端调度 GPU 以训练深度学习模型
问题描述
有些人拥有自己的云虚拟机实例来完成他们的任务。目前,当我们想训练我们的深度学习模型时,我们可以附加 GPU。但我一次只能使用 1-2 个 GPU。所以,我想建立一个调度机制,一旦 GPU 空闲就开始训练我的模型。我们怎么能这样做呢?一种解决方案可能是制作一个带有附加 GPU 的 VM 实例,然后我们从其他实例向该实例发送请求以安排我的工作。是否可行,如何做?
解决方案
如果要根据特定区域中 GPU 资源的可用性创建 GPU 实例,则用户无法观察到 GCP 资源是否可用或缺货。
您可以在一个实例上安排一个 cron 作业,该作业将在具有 GPU 资源的实例上执行任务,方法是在此处模拟服务帐户。例如,您可以运行下面提到的命令,通过模拟实例的服务帐户在“GPU_INSTANCE_NAME”实例上创建一个新文件。此时,创建一个包含以下命令的脚本,并使用 cron 作业根据您的要求安排任务。
“ gcloud compute ssh GPU_INSTANCE_NAME --project=Project_Name --zone=VM_Zone --impersonate-service-account=Instance_Service_Account --command="touch newfile" ”</p>
推荐阅读
- python - 在 sns.histplot 中绘制直方图失败
- ios - 如何修复这个与 Ruby 相关的 Flutter iOS 构建错误?
- python - 在 Linux 上为 Python 3.9 打包 GDAL
- sql - 如何始终只显示 SQL 查询结果表中相同值的第一个值?
- sql - SQL:如何仅将 where 应用于某些字段?
- python - 在 Windows 上将 pytorch 和 matplotlib 与 MKL 一起使用的正确方法是什么?
- javascript - 在for循环中使用时如何为按钮标签提供动态ID
- python - 尝试在 Python 中发送发布请求以从网站下载 csv 文件
- c# - 图像压缩导致 C# 中某些图像的方向错误
- java - 资源泄漏:'yourName' 从未关闭