首页 > 解决方案 > TensorFlow 服务 RAM 使用情况

问题描述

我无法在文档中找到有关如何在 TensorFlow Serving 中保存和加载模型以及在 CPU 与 GPU 上运行时可能存在的差异的具体信息。

为了服务多个模型(以及每个模型的一个或多个版本),一个通用的工作流程是:

我目前正在 CPU 上运行推理并一次加载许多模型,这比预期更快地消耗 RAM。保存的模型在磁盘上相对较小,但是当 TF Serving 将模型加载到内存中时,它几乎大了一个数量级。磁盘上单个200MB的saved_model 变成了1.5GB的 RAM,极大地限制了可以加载的模型数量。

问题:

松散相关的搜索结果:

标签: pythontensorflowtensorflow-serving

解决方案


是的,这是预期的。

不,CPU/GPU 无关紧要

由于 GPU 内存比系统内存少,您可能会在 GPU 内存中安装更少的内存。


推荐阅读