首页 > 解决方案 > 数据框python删除重复项

问题描述

我有一个看起来像这样的数据框

  TaskID Status         Time         
0    123   Progress     12.00
1    234   Progress     12.10
2    123   Almost Done  12.20
3    234   Completed    12.40

我需要在不更改其他列的值的情况下使用最新记录更新记录的状态并删除最新的重复记录。

最后结果

   TaskID Status         Time         
0    123   Almost Done  12.00
1    234   Completed    12.10

我怎样才能做到这一点?谢谢。

标签: pythondataframe

解决方案


agg我相信你需要通过withfirst和 聚合last

df = df.groupby('TaskID', as_index=False).agg({'Status':'last','Time':'first'})
print (df)
   TaskID       Status  Time
0     123  Almost Done  12.0
1     234    Completed  12.1

推荐阅读