首页 > 解决方案 > 在 Jupyter Notebook 中读取一个巨大的 .csv 文件

问题描述

我正在尝试从 Jupyter Notebook (Python) 中的 .csv 文件中读取数据

.csv 文件为 8.5G,7000 万行,30 列

当我尝试读取 .csv 时,出现错误。

以下是我的代码

import pandas as pd

log = pd.read_csv('log_20100424.csv', engine = 'python')

我也尝试过使用 pyarrow,但它不起作用。

import pandas as pd
from pyarrow import csv`

log = csv.read('log_20100424.csv').to_pandas()

我的问题是:

如何在 Jupyter Notebook 中读取一个巨大的(8.5G).csv 文件

有没有其他方法可以读取一个巨大的 .csv 文件?

我的笔记本电脑有 8GB RAM,运行 64 位 Windows 10 和 i5-8265U 1.6Ghz。

标签: pythonpandascsvjupyter-notebookpyarrow

解决方案


即使 Pandas 可以处理海量数据,Jupyter Notebook 也不能。要读取巨大的 CSV 文件,您需要分块工作。我遇到了类似的情况,Jupyter Notebook 内核会死掉,我不得不重新开始。尝试这个 -Pandas 错误 Jupyter 笔记本


推荐阅读