首页 > 解决方案 > 为 Cloud Dataflow 创建“环境”

问题描述

当我开始我的云数据流工作时,我首先导入我需要的库(在 python 中)。例如:

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常每次都需要几分钟时间,而且我每次使用 Cloud Dataflow 时都会使用相同的环境。有没有办法“保存”这个环境,以便在机器启动时它已经“准备好”?我见过“模板”,但它只提到了创建变量等,实际上并没有在环境中安装库(或者至少我没有看到)。

如果有人可以向我展示将库保存到环境中的示例,那就太好了,例如:

elasticsearch==6.0.0

标签: pythondataframegoogle-cloud-dataflowapache-beam

解决方案


据我了解您的用例,您通过某些服务器运行数据流作业。

在这种情况下,您可以为 PyPI 依赖项或非 PyPI 依赖项指定库--requirements_file标志setup.py。你在这里有一些例子和更多细节。


推荐阅读