首页 > 解决方案 > 打开 3.7GB parquet 文件立即被杀死

问题描述

我有 Python 3.7.3,我正在使用 pyarrow 2.0.0 并试图打开一个 3.7GB 的镶木地板文件。python 脚本立即以“Killed”作为我看到的唯一内容终止。由于我没有太多事情要做,我不确定它为什么会被“杀死”。试图打开它的计算机有 16GB 的 RAM,所以看起来应该有足够的 RAM 来处理它?有没有办法我可以获得更多关于它为什么被“杀死”的信息?

标签: pythonpython-3.7pyarrow

解决方案


“Killed”消息来自 Linux OOM 杀手。您可以通过检查日志来确认此行为。

Parquet 文件是经过压缩的,因此一个 3.7GB 的 parquet 文件在加载到内存后可能包含超过 16GB 的数据。

您将需要逐个阅读文件。如果文件有行组,您可以一次读取一个行组。如果文件没有行组(或者您不想以这种方式阅读),您可以选择更少的列来加载。


推荐阅读