首页 > 解决方案 > 如何将文件从 Azure Data Lake Gen2 传输到 GCS

问题描述

我正在使用 Airflow 版本 1.10.12。

  1. 在这个版本的气流中是否有任何操作员将文件从 Azure Data Lake Gen 2 Blob 存储复制到谷歌云存储。

  2. 我们是否安装 PyPi 包来克服这个缺陷

标签: airflow

解决方案


首先让我声明,Airflow 1.10 已于 2021 年 6 月 17 日结束生命周期,即使是安全修复也不支持。1.10.12 是相当旧的版本,您应该尽快迁移到 2.0(现在!)。

关于您关于运营商的问题 - Airflow 2.0 定义了许多供应商,您可以轻松浏览它们并在此处查看它们https://airflow.apache.org/docs/ - 这些都是当前支持的供应商/运营商。

您可以查看 Microsoft Azure 的运算符列表:

https://airflow.apache.org/docs/apache-airflow-providers-microsoft-azure/stable/operators/index.html

和谷歌:

https://airflow.apache.org/docs/apache-airflow-providers-google/stable/operators/transfer/index.html

您可以查找它们,看看是否有任何解决您的问题。我认为您不需要直接的操作员。但即使没有,只要你有正确的 Hooks 就不是问题,组合几个 Hooks 并构建你自己的自定义操作符应该是相当容易的

Azure Data Lake Hook 就在那里:Azure Data Lake Hook

同样谷歌云存储: GCS Hook

所以这应该很容易构建您的自定义运算符来做您想做的事情 - 您可以使用 AzureFileShare->GCS 并构建非常相似的运算符:

AzureFileShareToGCSOperator

只需按照创建自定义操作指南。


推荐阅读