首页 > 解决方案 > 如何设置 BigQuery 提取的文件部分的上限?

问题描述

假设我有一个包含 3M 行的 BigQuery 表,我想将其导出到 gcs。我做的是标准的bq extract <flags> ... <project_id>:<dataset_id>.<table_id> gs://<bucket>/file_name_*.<extension>

我受到文件(部分)可以拥有的行数的限制。有没有办法对文件部分的大小设置硬限制?

例如,如果我希望每个分区不超过 10Mb,甚至更好,设置文件部分允许进入的最大行数?该文档似乎没有为此目的提及任何标志。

标签: google-cloud-platformgoogle-bigquery

解决方案


BigQuery 提取 API 无法做到这一点。

但是您可以编写脚本(在循环中执行数千行的导出),但您必须为处理过的数据付费(提取是免费的!)。您还可以为此设置 Dataflow 作业(但它也不是免费的!)。


推荐阅读