首页 > 解决方案 > 如何使用 Pandas 导入凌乱的 .txt 并删除时间戳?

问题描述

我正在尝试导入包含大量交易数据的 txt 文件。通常我可以在 Excel 中打开文件,然后另存为 CSV,但文件太大,所以我一直在使用 Python 3:

df = pd.read_csv("file_name", sep = "\s+", dtype = str)

这提供了一个有点可用的数据框,但现在我在日期和时间戳方面遇到了一些问题。

在txt文件中,这些保存为:

2016-12-11 00:00:00.000 "XXXX"  "XXXX"  "XXXXX" "X"

X 是其他数据。当我将此数据导入 Python 时,我将日期作为索引,日期列中的时间戳后跟其他变量:

                VAR1.           VAR2.   VAR3.   VAR4.   VAR5. 
2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   X

导入数据时,我尝试使用以下内容创建新索引:

df = pd.read_csv("file_name", sep = "\s+", dtype = str, index_col = False)

但这最终将 VAR5 推离数据帧并将时间戳分配给 VAR2。

       VAR1.           VAR2.       VAR3.     VAR4.   VAR5. 
1   2016-12-11      00:00:00.000    XXXX    XXXX    XXXXX   

对于将 txt 文件中的数据导入 python、删除时间戳、然后将 datetime 应用于第一列的任何帮助,我将不胜感激。

txt 文件在变量之间有一些大的空格,每个字符串都用“”封装,例如:

2016-12-11 00:00:00.000 "XXXX"  "XXX"   "XXXX"  "X"

谢谢!

标签: pythonpandasdatetimedataframeread.csv

解决方案


推荐阅读