docker - TF_FORCE_GPU_ALLOW_GROWTH=true 在多模型服务的张量流中的行为（保存的模型格式）

问题描述

我对 TensorFlow 服务的 TF_FORCE_GPU_ALLOW_GROWTH 标志选项有疑问。

我能够在一个带有 TF 服务的 docker 容器中运行多个模型。为了限制 GPU 的使用，我将 TF_FORCE_GPU_ALLOW_GROWTH=true 标志作为环境变量传递。因此，当模型服务器最初加载时，它占用了大约 250 MiB，在我的第一个推理请求之后，它扩展到占用大约 6.4 GB 的 GPU 内存（在 10GB 的总 GPU 内存中）。这与加载一个模型还是加载多个模型无关。

我的问题是

我们如何检查每个模型的单独内存消耗？
服务器是否将所有模型加载到 GPU 内存，这就是使用量不超过 6.4 GB 限制的原因？
推理完成后，tf serving 是否具有从 GPU 卸载模型的功能？

标签： dockertensorflow-servingnvidia-docker

docker - TF_FORCE_GPU_ALLOW_GROWTH=true 在多模型服务的张量流中的行为（保存的模型格式）

问题描述

解决方案

推荐阅读