python - 为 Cloud Dataflow 创建“环境”
问题描述
当我开始我的云数据流工作时,我首先导入我需要的库(在 python 中)。例如:
google-cloud-bigquery==1.3.0
pysftp==0.2.9
google-cloud-storage==1.10.0
pandas==0.23.3
pandas-gbq==0.5.0
jaydebeapi==1.1.1
apache-beam==2.5.0
elasticsearch==6.0.0
这通常每次都需要几分钟时间,而且我每次使用 Cloud Dataflow 时都会使用相同的环境。有没有办法“保存”这个环境,以便在机器启动时它已经“准备好”?我见过“模板”,但它只提到了创建变量等,实际上并没有在环境中安装库(或者至少我没有看到)。
如果有人可以向我展示将库保存到环境中的示例,那就太好了,例如:
elasticsearch==6.0.0
解决方案
据我了解您的用例,您通过某些服务器运行数据流作业。
在这种情况下,您可以为 PyPI 依赖项或非 PyPI 依赖项指定库--requirements_file
标志setup.py
。你在这里有一些例子和更多细节。
推荐阅读
- jscript - 导致警报的标头脚本
- android - Ubuntu 18.04 React Native 运行 Android javax.net.ssl.SSLException
- sql-server - SQL 是 LEFT JOIN 和 WHERE 语句的最佳替代方案?
- ios - 将 UIScrollView 中的内容视图固定到其底部而不是其顶部边缘
- python - 从包含熊猫时间戳的数据框中获取平均值
- python - 每次循环在网络中找到新机器时尝试将主机名写入文件
- ios - Swift 中线程的奇怪问题
- c - 如何实现继承:错误:冲突声明'typedef struct
- c# - 构建通用通信接口
- openedge - 进展开放边缘 - 添加索引