pandas - 使用“pd.read_parquet()”时,我总是得到内核死机。(无论文件大小)
问题描述
正如您可以从标题中猜到的那样,使用 pd.read_parquet() 时内核总是会死掉。我已经尝试过不同尺寸的,但它不会工作。
这里是代码...(我在具有 i5 和 16GB RAM 的 Python 3.7 中使用 jupyter(没有 anaconda,因为它总是需要很长时间才能启动))
outfp = PurePath(data_dir+'/interim/IVE_tickbidask.parq')
#df = df.head(10)
df.to_parquet(outfp)
from pathlib import PurePath, Path
import pandas as pd
data_dir = "../../../Adv_Fin_ML_Exercises-master/Adv_Fin_ML_Exercises-master/data"
infp=PurePath(data_dir+'/interim/IVE_tickbidask.parq')
df = pd.read_parquet(data_dir+'/interim/IVE_tickbidask.parq')
cprint(df)
我该怎么做才能让它继续工作?
解决方案
我有同样的问题,添加engine = 'fastparquet'
对我有用。否则,它默认为engine = 'pyarrow'
并且这似乎会使内核死亡。
推荐阅读
- python - Python - 如何将字符串转换为数组
- c# - Net Core:将真实数据库复制到实体框架 InMemoryDB
- python - 当我使用 jinja 模板发送电子邮件时,css 不起作用
- ansible - 在 Ansible Jinja 模板中,如何转义双引号内的单引号?
- spring - 为什么 Spring 会创建这个太长的唯一 ID 并导致 DDL 错误?
- javascript - React 在数组上创建自己的函数
- apache-spark - Spark SQL中缓存机制的区别
- python - 从python 3中的实例变量中获取参数
- windows - 在 Windows 上使用 gcc/clang 内置函数
- r - 如何处理杂乱的数据 - 变量未标记为缺失