首页 > 解决方案 > 在云端调度 GPU 以训练深度学习模型

问题描述

有些人拥有自己的云虚拟机实例来完成他们的任务。目前,当我们想训练我们的深度学习模型时,我们可以附加 GPU。但我一次只能使用 1-2 个 GPU。所以,我想建立一个调度机制,一旦 GPU 空闲就开始训练我的模型。我们怎么能这样做呢?一种解决方案可能是制作一个带有附加 GPU 的 VM 实例,然后我们从其他实例向该实例发送请求以安排我的工作。是否可行,如何做?

标签: google-cloud-platformdeep-learningcloud

解决方案


如果要根据特定区域中 GPU 资源的可用性创建 GPU 实例,则用户无法观察到 GCP 资源是否可用或缺货。

您可以在一个实例上安排一个 cron 作业,该作业将在具有 GPU 资源的实例上执行任务,方法是在此处模拟服务帐户。例如,您可以运行下面提到的命令,通过模拟实例的服务帐户在“GPU_INSTANCE_NAME”实例上创建一个新文件。此时,创建一个包含以下命令的脚本,并使用 cron 作业根据您的要求安排任务。

“ gcloud compute ssh GPU_INSTANCE_NAME --project=Project_Name --zone=VM_Zone --impersonate-service-account=Instance_Service_Account --command="touch newfile" ”</p>


推荐阅读