首页 > 解决方案 > Python没有完全解压snappy parquet

问题描述

我正在使用以下脚本导入 parquet snappy 文件:

import pandas as pd
import glob

files = glob.glob('/home/....101.parquet/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])

我在图片中显示的最终结果没有完全解压缩。

数据框

标签: pythonapache-sparkparquetsnappy

解决方案


数据已完全解压缩,但有些列是结构类型

您可以通过调用以下方法尝试将它们展平:

import pyarrow.parquet as pq

pd.concat([pq.read_table(fp).flatten().to_pandas() for fp in files])

但我不确定它是否会完全有帮助,因为其中一些看起来包含数组。


推荐阅读