python - 为 Cloud Dataflow 创建“环境”

问题描述

当我开始我的云数据流工作时，我首先导入我需要的库（在 python 中）。例如：

google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0

这通常每次都需要几分钟时间，而且我每次使用 Cloud Dataflow 时都会使用相同的环境。有没有办法“保存”这个环境，以便在机器启动时它已经“准备好”？我见过“模板”，但它只提到了创建变量等，实际上并没有在环境中安装库（或者至少我没有看到）。

如果有人可以向我展示将库保存到环境中的示例，那就太好了，例如：

elasticsearch==6.0.0

标签： pythondataframegoogle-cloud-dataflowapache-beam

据我了解您的用例，您通过某些服务器运行数据流作业。

在这种情况下，您可以为 PyPI 依赖项或非 PyPI 依赖项指定库--requirements_file标志setup.py。你在这里有一些例子和更多细节。

python - 为 Cloud Dataflow 创建“环境”

问题描述

解决方案

推荐阅读