tensorflow - 在 Tensorflow Keras 中加载模型进行推理的最快方法

我正在尝试从磁盘快速加载模型以在 REST API 中进行预测。tf.keras.models.load_model方法需要大约 1秒才能加载，所以对于我想要做的事情来说太慢了。编译标志设置为假。

仅在 Tensorflow/Keras 中从磁盘加载模型以进行推理的最快方法是什么？

有没有办法在请求之间将模型保存在内存中？

我尝试了缓存，但 pickle 反序列化非常昂贵，并且增加了 ~1.2s。我怀疑内置的 Keras 加载模型也会进行某种序列化，这似乎是杀手锏。

PD：我知道 TFX，但感觉有点矫枉过正，因为我已经设置了 REST API。预测很快，只需要从磁盘快速加载模型或在请求之间持久化内存。

在此先感谢，琼

标签： tensorflowkerastensorflow2.0

不要！我有一点脑子放屁的时刻，所以如果你也有，这里有一个解决方案可以完成这项工作。

只需在启动服务器时加载模型，以便所有请求都可以使用模型。