首页 > 解决方案 > 使用“pd.read_parquet()”时,我总是得到内核死机。(无论文件大小)

问题描述

正如您可以从标题中猜到的那样,使用 pd.read_parquet() 时内核总是会死掉。我已经尝试过不同尺寸的,但它不会工作。

这里是代码...(我在具有 i5 和 16GB RAM 的 Python 3.7 中使用 jupyter(没有 anaconda,因为它总是需要很长时间才能启动))

outfp = PurePath(data_dir+'/interim/IVE_tickbidask.parq') 
#df = df.head(10)
df.to_parquet(outfp)

from pathlib import PurePath, Path
import pandas as pd
data_dir = "../../../Adv_Fin_ML_Exercises-master/Adv_Fin_ML_Exercises-master/data"
infp=PurePath(data_dir+'/interim/IVE_tickbidask.parq')
df = pd.read_parquet(data_dir+'/interim/IVE_tickbidask.parq')
cprint(df)

我该怎么做才能让它继续工作?

标签: pandasjupyter-notebookkerneljupyterparquet

解决方案


我有同样的问题,添加engine = 'fastparquet'对我有用。否则,它默认为engine = 'pyarrow'并且这似乎会使内核死亡。


推荐阅读