首页 > 解决方案 > 熊猫找到重复的数据

问题描述

我有这样的数据,我想得到的结果是有序的b并且c是重复的。我怎么解决这个问题?(订单和项目是多索引)

Order    Item     A
  a       1       'aaa'
          2       'bb'
  b       1       'aaa'
          2       'bb'
          3       'c'
  C       1       'aaa'
          2       'bb'
          3       'c'

标签: pythonpandasduplicates

解决方案


很简单。您应该从 groupby 对象转换为 Dataframe,然后使用方法。

df = df.reset_index()
df.drop_duplicates(keep = 'first', inplace = True)

如果您需要按特定列过滤,那么

df.drop_duplicates(subset = [col1, col2, ...], keep = 'first', inplace = True)

编辑

要保持重复:

df = df.groupby('Order')['A'].apply(list).reset_index()
df = df[df.duplicated(subset = ['A'], keep = False)]

如果您只需要订单列表

list_orders = df['Order'].unique()

推荐阅读