首页 > 解决方案 > GCP 中的流水线

问题描述

我有大量数据定期从数据源收集并存储在 GCS 存储桶中。目前它们存储在一个本地区域(伦敦)。我们正在使用 ETL 将这些数据与 GCP 服务(即作曲家、数据流或云功能等)组合到驻留在同一区域(例如 europe-west2 London)的 BigQuery 表中。

除此之外,我想将这些数据(例如存储桶)传输到位于不同区域的不同 BQ 表。

因此,总而言之,输出是位于两个不同区域的大查询表,如下所示:

GCS buckets:项目 1,伦敦的 buckets (europe-west2)

输出 1:project1 region1(europe-west2 London) - (existing) 上的 BQ 表

预期: 输出 2:project2 region2 (EU) 上的 BQ 表 - 多区域或比利时

我可以做到这一点,我应该如何有效地做到这一点?

感谢您对此的建议和帮助。谢谢!

标签: google-cloud-platformgoogle-bigquerygoogle-cloud-dataflowgoogle-cloud-composer

解决方案


一种选择是使用 BigQuery 的数据集跨区域副本。该功能目前处于测试阶段,目前免费(请注意,它可能并不总是免费的)。

尽管该服务的位置有限,但 europe-west2 和 EU 均受支持。


推荐阅读