首页 > 解决方案 > 在数据框中搜索重复项(Python)

问题描述

我有一个数据框,它是其他两个的融合。

df = pd.concat([df1, df2])

这个新数据框的索引是专有名称,并且这个数据框 (df) 包含一个“字母”列,其中填充了从“A”到“Z”的随机字母。

我想知道字母“A”和字母“B”是否有重复的行。

也就是说,两条线完全相同(例如:

      Letter
jeans  'A'
jeans  'A'

不考虑其他字母的重复。

程序将返回重复 en 'A' 和 'B' 的数量。

标签: pythonpandasdataframeduplicates

解决方案


考虑到您只想计算 A 和 B 的重复值:

df = pd.DataFrame({'Letter':['A','A','A','B','B']})

repetedA = np.where(df[df.Letter.duplicated()].isin(['A']), 1, 0).sum()
repetedB = np.where(df[df.Letter.duplicated()].isin(['B']), 1, 0).sum()

print('A repeated values:', repetedA, 
      '\nB repeated values:', repetedB)

输出:

A repeated values: 2 
B repeated values: 1

推荐阅读