gcloud - 使用 DataFlow 将 GCP 中的大型 Bigtable 数据库从一个帐户迁移到另一个帐户

问题描述

我有一个巨大的数据库存储在 GCP 的 Bigtable 中。我正在使用 DataFlow 将 bigtable 数据从一个帐户迁移到另一个 GCP 帐户。但是，当我创建一个作业以从 bigtable 创建一个序列文件时，它在目标存储桶上创建了 3000 个序列文件。所以，不可能为每个 3000 个序列文件创建一个数据流，所以，有没有办法减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件的方法

我们有两个序列文件想要一个接一个地依次上传数据（10行1列），但实际上是上传结果（5行2列）

标签： gcloudgoogle-cloud-bigtablebigtablesequencefile

序列文件的命名应该有某种模式，例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3等。

将Cloud Storage SequenceFile 运行到 Bigtable Dataflow 模板时，将参数设置sourcePattern为该模式的前缀，例如gs://mybucket/somefolder/output-*或gs://mybucket/somefolder/*

gcloud - 使用 DataFlow 将 GCP 中的大型 Bigtable 数据库从一个帐户迁移到另一个帐户

问题描述

解决方案

推荐阅读