python - 如何使用大文件使 Pandas Read_Csv 更快
问题描述
我目前正在使用 python 从 AWS S3 读取一个对象(csv 类型文件(.dta)超过 1GB),如下所示:
df = pd.read_csv(BytesIO(obj.content), encoding='latin1', sep='","', engine='python')
工作,但非常慢约 4 分钟。由于文件在字符串中有逗号,并且由双引号和逗号分隔,因此我可以用“,”分隔。
有关如何以 latin1 格式读取 .dta 文件并以“,”分隔以有效方式的任何建议。
我不必使用 pandas,但我必须在最后一步将数据放入数据框中。
谢谢
解决方案
推荐阅读
- php - Symfony - ChoiceType 返回
- php - 控制发布的 api 链接是否已启动
- c - 将 int 重新解释为 float
- python - 计算每组唯一值的数量
- linux - 如何使用 linux cli 忽略 csv 文件中的任何特定列数据?
- php - 在 php 中将另一个类的类型声明为另一个类的属性还有哪些其他选择
- java - 使用 HQL 从 Oracle 11 DB 获取数据以在网页上显示
- javascript - Javascript按随机百分比执行函数
- word-wrap - 在网页中包装日文字符
- node.js - 如何使用设置间隔来做更多的事情而不是输出一行?节点.js