python - bigquery.Client().extract_table() 不会（总是）将大表分成小的 CSV 文件

问题描述

我的 Python 应用程序需要将 BigQuery 表导出为 GCS 中的小 CSV 文件（例如小于 1GB）。

我参考了文档，并编写了以下代码：

from google.cloud import bigquery

bigquery.Client().extract_table('my_project.my_dataset.my_5GB_table',
                                destination_uris='gs://my-bucket/*.csv')

的大小my_5GB_table约为 5GB。但它会在 GCS 中生成一个 10GB 的 CSV 文件。

我尝试了其他大小不同的表，然后一些导致大约 200MB 的分割文件，而另一些则在一个巨大的文件中。

文档说好像表总是分为 1GB 文件，但现在我不知道文件划分的规则。

Q1如何确保表总是被分成小于 1GB 的文件？

Q2我不能指定表格被划分成的文件的大小吗？

标签： pythonpython-3.xgoogle-cloud-platformgoogle-bigquerygoogle-cloud-python

python - bigquery.Client().extract_table() 不会（总是）将大表分成小的 CSV 文件

问题描述

解决方案

推荐阅读