airflow - 如何将文件从 Azure Data Lake Gen2 传输到 GCS
问题描述
我正在使用 Airflow 版本 1.10.12。
在这个版本的气流中是否有任何操作员将文件从 Azure Data Lake Gen 2 Blob 存储复制到谷歌云存储。
我们是否安装 PyPi 包来克服这个缺陷
解决方案
首先让我声明,Airflow 1.10 已于 2021 年 6 月 17 日结束生命周期,即使是安全修复也不支持。1.10.12 是相当旧的版本,您应该尽快迁移到 2.0(现在!)。
关于您关于运营商的问题 - Airflow 2.0 定义了许多供应商,您可以轻松浏览它们并在此处查看它们https://airflow.apache.org/docs/ - 这些都是当前支持的供应商/运营商。
您可以查看 Microsoft Azure 的运算符列表:
https://airflow.apache.org/docs/apache-airflow-providers-microsoft-azure/stable/operators/index.html
和谷歌:
https://airflow.apache.org/docs/apache-airflow-providers-google/stable/operators/transfer/index.html
您可以查找它们,看看是否有任何解决您的问题。我认为您不需要直接的操作员。但即使没有,只要你有正确的 Hooks 就不是问题,组合几个 Hooks 并构建你自己的自定义操作符应该是相当容易的
Azure Data Lake Hook 就在那里:Azure Data Lake Hook
同样谷歌云存储: GCS Hook
所以这应该很容易构建您的自定义运算符来做您想做的事情 - 您可以使用 AzureFileShare->GCS 并构建非常相似的运算符:
只需按照创建自定义操作指南。
推荐阅读
- makefile - 如何压缩这个 Makefile 模式?
- reactjs - 在 React.js 的状态下打印的无关选择值 | 材质界面
- c# - 使用 OnBackButtonpressed() 进行用户确认时等待 DisplayAlert 回答
- mongodb - 通过“_id”更新集合中的查询
- python - 我正在尝试在 Python 中使用 OpenCV 测量地块面积
- spring - FindByIndexNameSessionRepository “RedisConnectionFactory is required”配置错误
- c++ - 如何在 C++ 中使用带有提交字段的 CURL formadd 上传文件?
- c++ - std::string 改变大小但不满足
- python - 列匹配但在python中打印其他列的值
- r - R:如何总结类别?