docker - TF_FORCE_GPU_ALLOW_GROWTH=true 在多模型服务的张量流中的行为(保存的模型格式)
问题描述
我对 TensorFlow 服务的 TF_FORCE_GPU_ALLOW_GROWTH 标志选项有疑问。
我能够在一个带有 TF 服务的 docker 容器中运行多个模型。为了限制 GPU 的使用,我将 TF_FORCE_GPU_ALLOW_GROWTH=true 标志作为环境变量传递。因此,当模型服务器最初加载时,它占用了大约 250 MiB,在我的第一个推理请求之后,它扩展到占用大约 6.4 GB 的 GPU 内存(在 10GB 的总 GPU 内存中)。这与加载一个模型还是加载多个模型无关。
我的问题是
- 我们如何检查每个模型的单独内存消耗?
- 服务器是否将所有模型加载到 GPU 内存,这就是使用量不超过 6.4 GB 限制的原因?
- 推理完成后,tf serving 是否具有从 GPU 卸载模型的功能?
解决方案
推荐阅读
- python - 气流任务不会转移到依赖关系上,而是重新运行任务
- python - 存储过程获取最后插入的行 python mysql 连接器
- java - 为什么我的 Azure 访问令牌 JWT 未能通过 Java 签名验证?
- python - 如何在 python 中比较 Twitter ID
- distribution - PyTorch 中 a, b>1 的 Beta 分布?
- c# - C# - 无法覆盖 ==
- mysql - WHERE 子句返回不正确的结果
- android - 如何在 android studio 3.1.2 中启用注释处理器
- c# - C# datagridview 列在排序时清除
- mysql - 使用“源 Table.sql”时,mariadb 控制台不接受变异元音(元音变音)