首页 > 解决方案 > 我可以在 Python 的临时工作库中导入/存储数据文件吗?

问题描述

我想使用 .xlsx 文件,我尝试了内置函数open()和 pandaspd.read_excel()函数,这两种函数都有效,但我每次都必须将它们包含在构建中,并且重新导入大型数据文件需要很长时间。

我更熟悉 SAS,您可以在其中将文件提交到 WORK 库,是否有与 Python 类似的东西,也许是我可以使用的包?

标签: pythonimport

解决方案


您基本上有 2 个选项来序列化数据并将其存储在文件中

pickle文件:每个文件一个数据帧

df = pd.read_pickle('data.pkl')
df.to_pickle('data.pkl')

hdf5文件:每个文件有多个数据帧

df = pd.read_hdf('data.h5', 'myframe')
df.to_hdf('data.h5', 'myframe')

这两种方法都比使用“xlsx”文件快得多,使用更少的磁盘空间并保留您的对象结构和数据类型。我猜 hdf5 更像是您对“库”的想法。

请参阅:熊猫 HDF5 (PyTables)


推荐阅读