gcloud - 使用 DataFlow 将 GCP 中的大型 Bigtable 数据库从一个帐户迁移到另一个帐户
问题描述
我有一个巨大的数据库存储在 GCP 的 Bigtable 中。我正在使用 DataFlow 将 bigtable 数据从一个帐户迁移到另一个 GCP 帐户。但是,当我创建一个作业以从 bigtable 创建一个序列文件时,它在目标存储桶上创建了 3000 个序列文件。所以,不可能为每个 3000 个序列文件创建一个数据流,所以,有没有办法减少序列文件或在 GCP 的数据流作业模板中一次提供整个 3000 个序列文件的方法
我们有两个序列文件想要一个接一个地依次上传数据(10行1列),但实际上是上传结果(5行2列)
解决方案
序列文件的命名应该有某种模式,例如gs://mybucket/somefolder/output-1, gs://mybucket/somefolder/output-2, gs://mybucket/somefolder/output-3
等。
将Cloud Storage SequenceFile 运行到 Bigtable Dataflow 模板时,将参数设置sourcePattern
为该模式的前缀,例如gs://mybucket/somefolder/output-*
或gs://mybucket/somefolder/*
推荐阅读
- vue.js - 路由器链接未加载组件
- html - 水平滚动不显示右边距
- mqtt - Parse 平台上的 MQTT(开源解析服务器)
- botframework - 无法在 Teams 机器人频道中粘贴魔术代码
- android - 如何导入 com.amazonaws.util.Throwables.failure
- r - 带有 gstat 的克里金法:带有预测的“位置处的协方差矩阵奇异”
- ios - SceneKit 中的金属着色器来勾勒对象的轮廓
- javascript - 如何设置材质 ui 时间选择器 dilog 样式
- julia - 离线使用 Julia 包管理器
- node.js - NestJS 如何将自定义 Logger 添加到自定义 ExceptionFilter