首页 > 解决方案 > 如何将包含多个表的 .dat 文件读入 pandas 数据框中?

问题描述

我有一个测量设备,它在这个文件夹中的raw_data.dat 等 .dat 文件中记录数据,所有这些都具有相同的结构,并且我希望能够将文件中的最后一个表提取到 pandas 数据框中。

该文件有几个表格,我不确定这里的制表结构是否是 .dat 文件的标准,但我尝试将文本粘贴到 excel 中,它会将文本识别为单独的表格,因此可能有一种相当标准的方法来将结构正确读入python。我找不到一个,所以我尝试了一种非常复杂的方法,将 .dat 文件读入字符串并手动切掉文件的顶部部分并将其余部分保存为 .dat 文件。我希望然后能够以某种方式将结果保存为 .csv 或 .xls 但我仍然找不到如何做到这一点。此外,在导入制表后将转换为 \t,这不会返回到已保存文件中的制表。我的代码如下


mylines = []                             
with open ('raw_file.dat', 'rt') as myfile:
    for myline in myfile:
        mylines.append(myline)

string = (mylines[8:])

with open("updated.dat", "w") as output:
    output.write(str(string))

我必须承认我对 python 还很陌生,我不确定我是否正确使用了这些函数。不过,我希望有一种比我正在尝试的解决方法更直接的方法。

标签: pythonpandasdata-conversiondata-import

解决方案


如果你可以确定你想要的第三个表从第 8 行开始,那么没有理由让它比从第 8 行开始索引文件更复杂。从那里,您可以使用字符串操作和列表理解来清理您的数据:

import pandas as pd

# Read the data.
with open('raw_data.dat', 'r') as fh:
    lines = fh.readlines()[8:]

# Remove newlines, tabs, and split each string separated by spaces.
clean = [line.strip.replace('\t', '').split() for line in lines]

# Feed the data into a DataFrame.
data = pd.DataFrame(clean[1:], columns=clean[0])

输出:

               Time         Variab1e1  ...               v18               v19
0  +0.00000000e+000  +3.04142181e-002  ...  +0.00000000e+000  +0.00000000e+000
1  +1.00000000e+000  +1.96144191e-001  ...  +1.00000000e+000  +0.00000000e+000
2  +2.00000000e+000  +3.75599731e-001  ...  +2.00000000e+000  +0.00000000e+000

如果要将值转换为浮点数,可以在将数据转换为 DataFrame 之前执行此操作:

headers = clean[0]
rows = [[float(value) for value in row] for row in clean[1:]]

data = pd.DataFrame(rows, columns=headers)

这给了你一个更干净的框架:

   Time  Variab1e1  Variable2  Variable3  Variable4  ...  v15  v16   v17  v18  v19
0   0.0   0.030414        0.0   1.383808        0.0  ...  0.0  0.0  15.0  0.0  0.0
1   1.0   0.196144        1.0   7.660262        1.0  ...  0.0  1.0  15.0  1.0  0.0
2   2.0   0.375600        2.0  15.356726        2.0  ...  0.0  2.0  15.0  2.0  0.0

推荐阅读