首页 > 解决方案 > 如何使用大文件使 Pandas Read_Csv 更快

问题描述

我目前正在使用 python 从 AWS S3 读取一个对象(csv 类型文件(.dta)超过 1GB),如下所示:

df = pd.read_csv(BytesIO(obj.content), encoding='latin1', sep='","', engine='python')

工作,但非常慢约 4 分钟。由于文件在字符串中有逗号,并且由双引号和逗号分隔,因此我可以用“,”分隔。

有关如何以 latin1 格式读取 .dta 文件并以“,”分隔以有效方式的任何建议。

我不必使用 pandas,但我必须在最后一步将数据放入数据框中。

谢谢

标签: pythonpandas

解决方案


推荐阅读