首页 > 解决方案 > 查找两列之间的唯一值

问题描述

我一直在经历各种问题,但还没有找到适合这种情况的问题。

我有两列电子邮件。第一列 (CollectedE) 由 32000 组成,第二列 (UndE) 由 14987 组成。

我需要在第二列中找到第一列中不存在的所有电子邮件并将它们输出到一个全新的列中。

我已经尝试过这样的事情,但是由于列中有两个不同的长度,这不起作用。

import pandas as pd
import numpy as np
df = pd.read_csv('data.csv', delimiter=";")

df['is_dup'] = df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE']).is_dup.transform(np.sum)
# df outputs:
df['is_dup'] =[![enter image description here][1]][1] df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE'])

df

这是两列的图片,如果有帮助的话。但似乎所有其他情况都是关于删除一列中的重复项、删除具有相同值的行、查找频率或类似的。

在此处输入图像描述

但我希望你能提供帮助。谢谢!

标签: pythonpandasdataframeduplicates

解决方案


也许pandas.Index.difference可以帮助你。


推荐阅读