首页 > 解决方案 > 如何在熊猫中优先删除重复项

问题描述

我是 pandas 和 python 的新手,我想删除重复项,但要优先考虑。这很难解释,但我会举一个例子来说明清楚

ID      Phone   Email
0001    0234+    null
0001    null    a@.com
0001    0234+    a@.com

我如何删除 ID 中的重复项并保留第三个,因为它同时具有电话和电子邮件,而不是随机删除它,如果 id 例如没有完整的两个值,它仍然是一个

标签: pythonpandas

解决方案


首先删除行中的 NaN,然后​​删除重复项

df2 = df.dropna(subset=['Phone']).dropna(subset=['Email']).drop_duplicates('ID')

推荐阅读