首页 > 解决方案 > 如何从保存在谷歌存储中的镶木地板文件创建熊猫数据框

问题描述

我需要使用托管在谷歌云存储桶上的镶木地板文件使用熊猫库创建数据框。我已经搜索了文档和在线示例,但似乎无法弄清楚如何去做。

你能帮我指出正确的方向吗?

我不是在寻找解决方案,而是寻找可以查找更多信息的位置,以便我可以设计自己的解决方案。

先感谢您。

标签: pythonpandasdataframegoogle-cloud-storageparquet

解决方案


您可以使用gcsfspyarrow库来执行此操作。

import gcsfs
from pyarrow import parquet

url = "gs://bucket_name/.../folder_name"
fs = gcsfs.GCSFileSystem()

// Assuming your parquet files start with `part-` prefix
files = ["gs://" + path for path in fs.glob(url + "/part-*")]
ds = parquet.ParquetDataset(files, filesystem=fs)
df = ds.read().to_pandas()

推荐阅读