首页 > 解决方案 > 将 Dask Dataframe 导入 Bigquery 表?

问题描述

有什么技术可以将 dask 数据帧上传到 bigquery 表中吗?据我所知,Bigquery 支持熊猫。

假设我们将 df 作为 pandas 数据框:

from google.cloud import bigquery
bq_table_path=`project_id.dataset_id.table_name`
bigquery_client=bigquery.client(project=project_id)
bigquery_client.load_table_from_dataframe(df,bq_table_path)

在 dask 数据框中呢?我收到以下错误:

NotImplemented Error: series getitem is only supported for other series objects with matching partition structure"

有什么建议吗?

标签: pythonpandasgoogle-bigquerydask

解决方案


我最近制作了一些原型,您可以在此评论中找到关于 github 问题https://github.com/coiled/dask-bigquery/issues/3#issuecomment-896350178但如果您继续阅读讨论,则此实现存在限制,主要与数据的大小有关。如果您有大量数据并且可以依赖中间存储并使用镶木地板,则可以尝试遵循此要点上的解决方案https://gist.github.com/bnaul/4819f045ccbee160b60a530b6cfc0c98#file-dask_bigquery-py-L188- L271


推荐阅读