python - 打开 3.7GB parquet 文件立即被杀死
问题描述
我有 Python 3.7.3,我正在使用 pyarrow 2.0.0 并试图打开一个 3.7GB 的镶木地板文件。python 脚本立即以“Killed”作为我看到的唯一内容终止。由于我没有太多事情要做,我不确定它为什么会被“杀死”。试图打开它的计算机有 16GB 的 RAM,所以看起来应该有足够的 RAM 来处理它?有没有办法我可以获得更多关于它为什么被“杀死”的信息?
解决方案
“Killed”消息来自 Linux OOM 杀手。您可以通过检查日志来确认此行为。
Parquet 文件是经过压缩的,因此一个 3.7GB 的 parquet 文件在加载到内存后可能包含超过 16GB 的数据。
您将需要逐个阅读文件。如果文件有行组,您可以一次读取一个行组。如果文件没有行组(或者您不想以这种方式阅读),您可以选择更少的列来加载。
推荐阅读
- java - 如何在基于 Maven 的 Java 项目中安装 MWS 库?
- c# - 在数组中调用 Object 类型的方法,而不是数组类型
- split - 如何根据字段的值拆分 netcdf 文件?
- javascript - 没有像 MySQL 这样的数据库的 HTML / JAVASCRIPT
- laravel - Laravel 分页
- angular - AGM 角度谷歌地图以编程方式设置缩放
- qt - 在 Qt 中,如果应用程序退出时尚未完成,如何取消 QtConcurrentRun?
- javascript - THEN 语句返回承诺/始终返回和一致返回错误
- c++ - Live555 RTSP 服务器不使用 UDP
- java - Java中的自定义标记接口