python - 如何从保存在谷歌存储中的镶木地板文件创建熊猫数据框
问题描述
我需要使用托管在谷歌云存储桶上的镶木地板文件使用熊猫库创建数据框。我已经搜索了文档和在线示例,但似乎无法弄清楚如何去做。
你能帮我指出正确的方向吗?
我不是在寻找解决方案,而是寻找可以查找更多信息的位置,以便我可以设计自己的解决方案。
先感谢您。
解决方案
import gcsfs
from pyarrow import parquet
url = "gs://bucket_name/.../folder_name"
fs = gcsfs.GCSFileSystem()
// Assuming your parquet files start with `part-` prefix
files = ["gs://" + path for path in fs.glob(url + "/part-*")]
ds = parquet.ParquetDataset(files, filesystem=fs)
df = ds.read().to_pandas()
推荐阅读
- ceph - CEPH 的 OSD_OBJECTSTORE 哪个输出正确
- c# - 调试时直接跳转到Method
- javascript - 使用 javascript 在移动触摸设备上处理带有链接的悬停覆盖图像
- python - 如何更改小部件中按钮的位置(kivy)
- python - 在 Python 中使用 Regex 提取准确的单词或字符集
- node.js - LernaJs tsc 找不到模块
- javascript - 使用 HTML 导入在 DIV 中加载整个 HTML 页面
- php - 有没有一种方法可以让我以常规块大小执行 n 次 ajax 请求?
- python - 如何更改解释器输出形状?
- azure - 将多个 Windows 计划任务从 VM 移植到单个 Web 作业