python - 如何在熊猫中优先删除重复项
问题描述
我是 pandas 和 python 的新手,我想删除重复项,但要优先考虑。这很难解释,但我会举一个例子来说明清楚
ID Phone Email
0001 0234+ null
0001 null a@.com
0001 0234+ a@.com
我如何删除 ID 中的重复项并保留第三个,因为它同时具有电话和电子邮件,而不是随机删除它,如果 id 例如没有完整的两个值,它仍然是一个
解决方案
首先删除行中的 NaN,然后删除重复项
df2 = df.dropna(subset=['Phone']).dropna(subset=['Email']).drop_duplicates('ID')
推荐阅读
- azure - Azure 专用 DNS 区域解析
- azure-functions - Azure 函数和 Web 作业或 Azure 函数与 Web 作业之间的区别
- .net - 如何执行使用 Framework 2 构建的应用程序并使用 TLS 1.2 以 3.5.1 运行,而无需重新构建应用程序
- sql-server-2008 - 如何在 HTML 电子邮件中设置标题
- intellij-idea - Java/intellij 中的包
- python - Pandas:高效写入数千个小文件
- c - 为什么标准输出在 libc 中?
- javascript - 子调整大小后的FabricJS组选择/边界框
- node.js - NodeJS 服务器和 React 应用程序不能使用相同版本的 Node
- powershell - Powershell - Get-WinEvent Replace Text