首页 > 解决方案 > 如何在 python 中打开 .snappy.parquet 文件?

问题描述

如何在 python 3.5 中打开 .snappy.parquet 文件?到目前为止,我使用了这段代码:

import numpy
import pyarrow

filename = "/Users/T/Desktop/data.snappy.parquet" 
df = pyarrow.parquet.read_table(filename).to_pandas()

但是,它给出了这个错误:

AttributeError: module 'pyarrow' has no attribute 'compat'

PS我以这种方式安装了pyarrow:

pip install pyarrow

标签: pythonparquetsnappy

解决方案


我遇到了同样的问题,并按照https://github.com/dask/fastparquet/issues/366解决方案中提出的解决方案设法解决了这个问题。

1)使用 conda install 安装 python-snappy (由于某种原因使用 pip install,我无法下载它)

2) 添加 snappy_decompress 函数。

from fastparquet import ParquetFile
import snappy
def snappy_decompress(data, uncompressed_size):
    return snappy.decompress(data)
pf = ParquetFile('filename') # filename includes .snappy.parquet extension
dff=pf.to_pandas()

推荐阅读