首页 > 解决方案 > 删除熊猫时间序列中的重复项

问题描述

我有一个 csv 文件,其时间序列的结构如下:col1: date col2: value. csv 文件的日期是从 1 月 1 日到 4 月 30 日。然后我有第二个 csv 文件,不同之处在于日期是 2 月 1 日到 5 月 31 日。从 2 月 1 日到 4 月 30 日第二列中的值是在第一个和第二个文件中相同。第三个 csv 文件(3 月 1 日至 6 月 30 日)、第四个等存在相同的问题:相同的重叠结构。我想阅读这些 csv 文件,但只保留从 1 月 1 日到 12 月 31 日的唯一日期,而没有重复值。有没有一种使用 Pandas 数据帧的快速方法?

标签: python

解决方案


一种选择是使用 pandas pd.concat() 连接文件,然后尝试:

df = pd.concat([file1,file2,file3])
df.drop_duplicates()

推荐阅读