首页 > 解决方案 > 在非 AWS Kubernetes 集群上使用 aws-virtual-gpu-device-plugin

问题描述

我读到了aws virtual gpu device plugin,它如何用于将一个 GPU 拆分为多个较小的 GPU 并在每个小部分上运行并发作业。虽然这对我的用例来说很棒,但我想知道这是否仅适用于 AWS EKS 服务,或者也可以在其他云提供商 K8 集群上使用?有人在非 AWS 基础设施上使用过它吗?

标签: kubernetesamazon-eks

解决方案


请注意其局限性。

Kubernetes 的虚拟 GPU 设备插件

Blockquote 限制 该解决方案建立在 Volta 多进程服务 (MPS) 之上。您只能在具有 Tesla-V100 或更新版本的实例类型上使用它。(现在只有 Amazon EC2 P3 实例和 Amazon EC2 G4 实例)虚拟 GPU 设备插件默认将 GPU 计算模式设置为 EXCLUSIVE_PROCESS,这意味着 GPU 被分配给 MPS 进程,各个进程线程可以通过 MPS 服务器并发向 GPU 提交工作。此 GPU 不能用于其他用途。如果您在工作负载中请求 k8s.amazonaws.com/vgpu 超过 1 个,则虚拟 GPU 设备插件仅适用于单个物理 GPU 实例(如 P3.2xlarge)。虚拟 GPU 设备插件不能与 Nvidia 设备插件一起使用。您可以标记节点并使用选择器来安装虚拟 GPU 设备插件。


推荐阅读