python - Python没有完全解压snappy parquet
问题描述
我正在使用以下脚本导入 parquet snappy 文件:
import pandas as pd
import glob
files = glob.glob('/home/....101.parquet/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])
我在图片中显示的最终结果没有完全解压缩。
解决方案
数据已完全解压缩,但有些列是结构类型。
您可以通过调用以下方法尝试将它们展平:
import pyarrow.parquet as pq
pd.concat([pq.read_table(fp).flatten().to_pandas() for fp in files])
但我不确定它是否会完全有帮助,因为其中一些看起来包含数组。
推荐阅读
- pandas - 如何使用 XLSX 编写器将 pandas Pivot 表的最大值和最小值写入 excel
- python - Python CSV Writer 仅写入处理的最后一个抓取的项目
- javascript - 关闭浏览器后如何在 JavaScript 中正确使用 Promise?
- javascript - 多卷轴对角滑动
- javascript - 无法对未安装的组件执行 React 状态更新
- linux - msync() 是否提供获取/释放语义?
- node.js - Nodemailer 可能会阻止 Jest 退出
- python - 在 R 中运行 Keras 顺序模型
- laravel - Laravel + MongoDB 雄辩的关系不起作用
- c - 被 printf 函数中的制表符 (\t) 混淆