google-cloud-platform - 是否可以在 Dataflow 中暂存模型文件?
问题描述
我正面临部署 Dataflow 管道的艰难时期。感谢 GCP 文档。以下是我想要实现的目标。
我有 4 个深度学习模型(每个 1 GB 的二进制文件)。我想从所有 4 个模型中获得预测。所以我搅拌桶里的所有 4 个模型。在我的管道中,我这样做了。
download_blob(......, destination_file_name = 'model.bin')
fasttext.load_model('model.bin')
它工作正常,但我有以下担忧。
每次创建作业时,它都会下载这些文件,这将消耗大量时间。如果我调用 100 个作业,那么模型将被下载 100 次。有什么办法可以避免吗?
有什么办法可以将这些文件暂存到某个位置,这样即使我触发作业 100 次,模型也只会下载一次?
解决方案
如GCP 数据流计算图和作业执行中所述,您可以将模型数据放入自定义容器中。当然,容器本身仍然必须在工人身上上演。
您还可以考虑单个管道(如果事先不知道输入,则可能是流式传输)是否比许多连续运行更好地满足您的需求。
推荐阅读
- python - django 数据库错误错误的打印选择字段
- nlp - 从文本中提取难词
- r - 基本问题:如何为绘图中的线条添加颜色
- django - 如何限制 django 频道房间中的客户端数量
- javascript - 如何为 Firebase DB 设置安全规则,以使用户无法向 DB 发出未经授权的请求?
- python - 如何在 Python 中检查大于 N 行的函数
- r - 使用 dplyr::filter() 删除 NA
- react-native - 返回按钮以纠正平面列表的位置
- google-sheets - 谷歌表格“如果”从列而不是单元格进行验证
- c++ - 我的 system() 命令给出了一些需要忽略的警告。如何隐藏警告?