首页 > 解决方案 > 使用 DataFlow 将 GCP 中的大型 Bigtable 数据库从一个帐户迁移到另一个帐户

问题描述

我有一个巨大的数据库存储在 GCP 的 Bigtable 中。我正在使用 DataFlow 将 bigtable 数据从一个帐户迁移到另一个 GCP 帐户。但是,当我创建一个作业以从 bigtable 创建一个序列文件时,它在目标存储桶上创建了 3000 个序列文件。所以,不可能为每个 3000 个序列文件创建一个数据流,所以,有没有办法减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件的方法

我们有两个序列文件想要一个接一个地依次上传数据(10行1列),但实际上是上传结果(5行2列)

标签: gcloudgoogle-cloud-bigtablebigtablesequencefile

解决方案


序列文件的命名应该有某种模式,例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3等。

Cloud Storage SequenceFile 运行到 Bigtable Dataflow 模板时,将参数设置sourcePattern为该模式的前缀,例如gs://mybucket/somefolder/output-*gs://mybucket/somefolder/*


推荐阅读