kubernetes - 在非 AWS Kubernetes 集群上使用 aws-virtual-gpu-device-plugin
问题描述
我读到了aws virtual gpu device plugin,它如何用于将一个 GPU 拆分为多个较小的 GPU 并在每个小部分上运行并发作业。虽然这对我的用例来说很棒,但我想知道这是否仅适用于 AWS EKS 服务,或者也可以在其他云提供商 K8 集群上使用?有人在非 AWS 基础设施上使用过它吗?
解决方案
请注意其局限性。
Blockquote 限制 该解决方案建立在 Volta 多进程服务 (MPS) 之上。您只能在具有 Tesla-V100 或更新版本的实例类型上使用它。(现在只有 Amazon EC2 P3 实例和 Amazon EC2 G4 实例)虚拟 GPU 设备插件默认将 GPU 计算模式设置为 EXCLUSIVE_PROCESS,这意味着 GPU 被分配给 MPS 进程,各个进程线程可以通过 MPS 服务器并发向 GPU 提交工作。此 GPU 不能用于其他用途。如果您在工作负载中请求 k8s.amazonaws.com/vgpu 超过 1 个,则虚拟 GPU 设备插件仅适用于单个物理 GPU 实例(如 P3.2xlarge)。虚拟 GPU 设备插件不能与 Nvidia 设备插件一起使用。您可以标记节点并使用选择器来安装虚拟 GPU 设备插件。
推荐阅读
- c - 我可以从 DLL 中导入全局变量吗?我可以使用 DEF 文件执行此操作吗?
- java - 与杰克逊处理继承时如何避免强制转换
- html - ngf-select 到 Angular 8
- java - 将两条SQL语句合二为一,满足一定条件时更新表中的一行
- python - 删除 NaN 但保留 None
- python - tensorflow-1.0.1-py2-none-any.whl 不是该平台支持的轮子
- javascript - 将对象中的键值提取到具有特定字段的对象数组中
- leaflet - Leaflet.js - LatLng 到像素
- react-native - React-Native Flatlist 的 onViewableItemChanged 错误
- reporting-services - 如何在 SSRS 本地报告中保存凭据