首页 > 解决方案 > 熊猫版本更新后 to_csv() 变慢了吗?

问题描述

我们将 pandas 从 0.21.1 版本升级到 0.24.1

在 0.21.1-to_csv() 中,在大约 1.5 小时内将 200 列的 6400 万条记录写入 .csv 文件

df.to_csv(filename, index=False)

我进行了软件更新,并且永远写出同一行代码。

有没有更好的方法可以让我回退到更快的方法?

标签: pythonpandas

解决方案


在版本0.21.x中,定义是

DataFrame.to_csv(
path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None,
header=True, index=True, index_label=None, mode='w', encoding=None, 
compression=None, quoting=None, quotechar='"', line_terminator='\n', 
chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, 
escapechar=None, decimal='.')

0.24.x定义中是

DataFrame.to_csv(
path_or_buf=None, sep=', ', na_rep='', float_format=None, columns=None, 
header=True, index=True, index_label=None, mode='w', encoding=None, 
compression='infer', quoting=None, quotechar='"', line_terminator=None, # Check these options
chunksize=None, tupleize_cols=None, date_format=None, 
doublequote=True, escapechar=None, decimal='.') 

只有一些参数发生了变化。您可能想查看它们并检查函数的行为是否与以前相同。

另外尝试to_hdf用于写入大文件

df.to_hdf('file.h5', key='some_key', mode='w')

推荐阅读