python - 如何加快 pandas 将数据帧保存到 csv 的速度?
问题描述
有什么方法可以加快保存过程。我有一个仅包含 600,000 行的数据框,我的程序在保存文件时卡住了大约 8 个小时,然后我才因为沮丧而退出程序。Pandas 将在 45 秒内成功保存一个包含 50,000 行的数据框,但由于某种原因,这个有点大的数据框让它出错了。我知道它肯定是使程序变慢的 pandas to_csv 命令。这是一些代码:df.to_csv(mes_csv + "_copy.csv.gz", chunksize=100000, header=True, compression='gzip', encoding='utf-8')
解决方案
您也可以尝试羽毛或镶木地板格式。基本原理:保存和重新加载文件的速度,以及压缩(对于镶木地板)。
df.to_feather('test.feather')
df.to_parquet('test.hd5')
文档在这里:
推荐阅读
- docker - 如何在 docker 的主机窗口上拉窗口容器?
- python-3.x - Python中的单词替换
- matlab - 如何在 MATLAB 中删除此代码的四个嵌套“for”循环。有什么建议么?
- ruby - Prawn pdf bounding_box 不能跨多个页面工作
- amazon-web-services - 为什么 AWSAppSyncClient 抛出错误网络错误:在 lambda 上离线时缺少乐观响应?
- angular - 在表格组件的 mat-cell(td) 中调用两个不同的变量
- windows - PDF - 删除文件夹中 PDF 中除第一页以外的所有页面
- sql-server - 仅显示 SQL Server 视图中最顶层的记录
- c# - 使用 SevenZipSharp 压缩文件时保留特定目录
- angular - 在 Angular 库中包含很棒的字体