python - bigquery.Client().extract_table() 不会(总是)将大表分成小的 CSV 文件
问题描述
我的 Python 应用程序需要将 BigQuery 表导出为 GCS 中的小 CSV 文件(例如小于 1GB)。
我参考了文档,并编写了以下代码:
from google.cloud import bigquery
bigquery.Client().extract_table('my_project.my_dataset.my_5GB_table',
destination_uris='gs://my-bucket/*.csv')
的大小my_5GB_table
约为 5GB。但它会在 GCS 中生成一个 10GB 的 CSV 文件。
我尝试了其他大小不同的表,然后一些导致大约 200MB 的分割文件,而另一些则在一个巨大的文件中。
文档说好像表总是分为 1GB 文件,但现在我不知道文件划分的规则。
Q1如何确保表总是被分成小于 1GB 的文件?
Q2我不能指定表格被划分成的文件的大小吗?
解决方案
推荐阅读
- javascript - 从插件/扩展访问 Twitch 的 React 视频播放器
- reactjs - 如何防止通过更漂亮的 eslint 自动将 0.00 转换为 0.0
- google-app-engine - 为什么 App Engine API 会根据用户返回不同的域映射?
- google-bigquery - Bigquery - 将多个 csv 文件从存储桶导出到本地文件夹(C 盘)
- ios - 如何在我的浏览器中本地运行 iOS / Android 设备?
- python - 如何在没有数据框的情况下绘制 seaborn countplot?
- r - 使用 pivot_long 来容纳日期列
- excel - 如果列 AD=1 则将 B 的内容复制到 C
- javascript - angularjs 捕获触发 $exceptionHandler 错误的 html 元素和数据?
- amazon-web-services - 适用于 EMR Web UI 的 AWS 网络策略?