python - 在 Jupyter Notebook 中读取一个巨大的 .csv 文件
问题描述
我正在尝试从 Jupyter Notebook (Python) 中的 .csv 文件中读取数据
.csv 文件为 8.5G,7000 万行,30 列
当我尝试读取 .csv 时,出现错误。
以下是我的代码
import pandas as pd
log = pd.read_csv('log_20100424.csv', engine = 'python')
我也尝试过使用 pyarrow,但它不起作用。
import pandas as pd
from pyarrow import csv`
log = csv.read('log_20100424.csv').to_pandas()
我的问题是:
如何在 Jupyter Notebook 中读取一个巨大的(8.5G).csv 文件
有没有其他方法可以读取一个巨大的 .csv 文件?
我的笔记本电脑有 8GB RAM,运行 64 位 Windows 10 和 i5-8265U 1.6Ghz。
解决方案
即使 Pandas 可以处理海量数据,Jupyter Notebook 也不能。要读取巨大的 CSV 文件,您需要分块工作。我遇到了类似的情况,Jupyter Notebook 内核会死掉,我不得不重新开始。尝试这个 -
推荐阅读
- kotlin - Dagger 2 public field injection 产生“private field injection”错误
- c - 我不明白为什么打印带有变量的函数值时输出不同
- jetty - 如何防止战争库 slf4j 与我的项目 slf4j 发生冲突?
- flutter - 如何使用 3 个参数创建获取请求?
- twitter-bootstrap-3 - Zikula 在 Bootstrap 主题中将块添加到顶部导航位置
- python - 在pytest中,如何断言是否引发了异常(从父异常类继承)?
- c# - 有没有办法在 C# WinForm 中更快地加载哪个 BackColor = 透明控件?
- c# - 在 SignalR 中使用基类
- python-3.x - 外部触发具有 schedule_interval=None 的 dag
- ag-grid - onSortChanged 未触发