python - 将 Pandas 数据帧中的重复项移动到新数据帧
问题描述
我正在尝试对熊猫数据框进行排序并找到重复项。
但是,我不只是试图找到重复项并摆脱它们。我需要准确查看哪些两个(或多个)文件编号包含相同的 EIN,并将其移至新的数据框。
例如,如果 file_num 376 和 7212 包含完全相同的 EIN (12370123723),我想创建一个如下所示的数据框:
EIN: file_num
12370123723 376, 7212
如果有人对如何做这样的事情有任何建议,我们将不胜感激。我尝试使用 .duplicated() 方法,但这只会返回布尔值,并不能准确告诉我哪些文件是哪些文件的副本。
解决方案
请执行下列操作:
dups = df[df.EIN.duplicated(keep=False)]
dups.groupby("EIN")["file_num"].apply(list)
这些是合成数据的结果:
数据:
EIN file_num
0 2 0
1 5 1
2 0 2
3 5 3
4 5 4
5 5 5
6 6 6
7 0 7
8 2 8
9 3 9
输出:
EIN
0 [2, 7]
2 [0, 8]
5 [1, 3, 4, 5]
推荐阅读
- c - C 编程 - 过滤数组
- probability - 通过反应堆屏蔽的中子
- flutter - 列出附近开启蓝牙的手机(flutter_blue 包)
- javascript - 仍在为此苦苦挣扎...为什么我不能在鼠标移出工作时淡出?
- javascript - 对象中定义的 JS 函数范围不适用于代码覆盖
- javascript - 如何在动态添加行和单元格的表格中拖放单元格内容?
- c++ - 复制矢量
缓冲区到帧缓冲区 - azure - Azure SAML SSO 唯一用户标识符在响应中不正确
- mysql - LDAP 连接超时错误(带有后端 MySQL 的 OpenLDAP)
- android - 如何在我的 Unity 项目中翻译 google-services.json,以便我的 firebase 集成在 buidl 中工作?