python - 查找两列之间的唯一值
问题描述
我一直在经历各种问题,但还没有找到适合这种情况的问题。
我有两列电子邮件。第一列 (CollectedE) 由 32000 组成,第二列 (UndE) 由 14987 组成。
我需要在第二列中找到第一列中不存在的所有电子邮件并将它们输出到一个全新的列中。
我已经尝试过这样的事情,但是由于列中有两个不同的长度,这不起作用。
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv', delimiter=";")
df['is_dup'] = df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE']).is_dup.transform(np.sum)
# df outputs:
df['is_dup'] =[![enter image description here][1]][1] df[['CollectedE', 'UndE']].duplicated()
df['dups'] = df.groupby(['CollectedE', 'UndE'])
df
这是两列的图片,如果有帮助的话。但似乎所有其他情况都是关于删除一列中的重复项、删除具有相同值的行、查找频率或类似的。
但我希望你能提供帮助。谢谢!
解决方案
也许pandas.Index.difference
可以帮助你。
推荐阅读
- java - Tomcat webapp 未运行
- c++ - C++ MFC:没有使用增强型元文件 (EMF) 绘制文本 - TextOut 函数失败,返回零 0
- dynamoose - Dynamoose TypeScript ValidationException:使用 .get() 时键上的条件数无效
- python - 在 HTML 中遍历 Python 列表中的变量
- python - 检测excel单元格中的文本是否完全可见?
- php - 我的 Lumen 依赖项无法识别 api.php 中的 $router - 未定义变量:路由器
- api - 如何从 GCP DataFusion / CDAP 管道中执行多个 HTTP 调用
- python - 为什么执行 else 语句,如果它被忽略?
- r - 在 simr 中增加用于功率分析的样本量时遇到问题
- javascript - PS - JPEG 2000 保存选项