首页 > 解决方案 > 云计算虚拟机与 AI 平台的性能差异

问题描述

我有一个 GCP 云计算 VM,它是一个n1-standard-164 个 P100 GPU,以及一个用于存储数据的固态驱动器。我将其称为“VM”。

我之前使用虚拟机来训练基于 tensorflow 的 CNN。我想从这个转向使用 AI Platform,这样我就可以同时运行多个作业。但是我遇到了一些问题。

问题

当在 VM 上运行训练时,我可以将批量大小设置为 400,完成一个 epoch 的标准时间约为 25 分钟。

当训练在一个complex_model_m_p100我认为相当于 VM 的 AI 平台机器上运行时,我可以设置最大批量大小为 128,完成一个 epoch 的标准时间是 1 小时 40 分钟。

差异:VM 与 AI 平台

我想了解减少批量大小的原因,并将 AI Platform 上的 epoch 时间减少到与 Glamdring 相当的水平。有没有其他人遇到过这个问题?我是否在正确类型的 AI Platform 机器上运行?任何的建议都受欢迎!

标签: tensorflowgoogle-cloud-platformgoogle-cloud-mlgcp-ai-platform-training

解决方案


可能是一堆东西。有两种方法可以让 VM 看起来更像 AI Platform:

export IMAGE_FAMILY="tf-latest-gpu" # 1.15 instead of 1.12
export ZONE=...
export INSTANCE_NAME=...

gcloud compute instances create $INSTANCE_NAME \
  --zone=$ZONE \
  --image-family=$IMAGE_FAMILY \
  --image-project=deeplearning-platform-release \
  --maintenance-policy=TERMINATE \
  --metadata="install-nvidia-driver=True"

n 然后连接 4 个 GPU。

...或使 AI Platform 看起来更像 VM: https ://cloud.google.com/ai-platform/training/docs/machine-types#gpus-and-tpus ,因为您现在使用的是旧版机器.


推荐阅读