首页 > 解决方案 > 将大型稀疏熊猫数据框保存到 excel

问题描述

我有一个 477k 行和 530 列具有不同 dtype 的大型稀疏 pandas 数据框。当我使用以下命令检查 pandas 中的内存使用情况时:

df.memory_usage().sum()

它给了我以千兆字节为单位的大小。因此,我使用以下方法将数据帧转换为稀疏数据帧:

df.to_sparse()

而且,现在 memory_usage 减少到 80MB。但是,当我将它导出到 excel 时,磁盘上的文件大小约为 500MB。文件打开,但打开和探索数据需要很长时间。当我在 excel 中选择一列时,它应该给我该列中记录数的计数,在这种情况下,它给我计数作为数据帧的长度(即 477k 行),但实际上,该列大约15000 条记录填充了数据,其余的都是空白的(所有列都相同)。我假设在将数据导出到 excel 时,excel 也会在空白单元格中填充数据。有没有办法可以摆脱这个问题?

标签: pythonexcelpandasdataframe

解决方案


推荐阅读