首页 > 解决方案 > Pandas read_csv BZ2 文件始终包含文件名

问题描述

每次我将 .bz2 文件加载到 Pandas 数据帧中时,我都会将文件名作为数据帧第一行的第一列。我tar用来压缩文件。我写了以下something.txt文件:

1  2  3  4   5
2  3  4  5   6
6  7  8  9  10

我通过压缩它tar -cvjf something.txt.bz2 something.txt。然后,我解压缩数据并将其移动到安全的文件位置:

tar -xvjf something.txt.bz2 
mv something.txt something.txt.2

现在我以三种不同的方式在 python 脚本中加载数据:

>>> data1 = pd.read_csv("something.txt")
>>> data2 = pd.read_csv("something.txt.2")
>>> data3 = pd.read_csv("something.txt.bz2")

这是我再次读回这些数据时得到的结果:

>>> data1
   1  2  3  4   5
0  2  3  4  5   6
1  6  7  8  9  10
>>> data2
   1  2  3  4   5
0  2  3  4  5   6
1  6  7  8  9  10
>>> data3
   something.txt    2    3    4     5
0            2.0  3.0  4.0  5.0   6.0
1            6.0  7.0  8.0  9.0  10.0
2            NaN  NaN  NaN  NaN   NaN

有谁知道为什么会这样???

标签: pandasbzip2

解决方案


推荐阅读