python - 如何删除python中的重复值?
问题描述
我在这里添加了一个excel图像!我使用 python 对 Excel 表进行了重复数据删除。重复数据删除后,它有一cluster id
列。一组重复行的簇 id 可以为 0,表示这 n 行具有相同的值。现在,对于唯一的行,集群 id 没有值,甚至没有,它只是空的。我只想删除那些具有cluster id
值的行,以便我可以拥有所有不同的行。对于重复数据删除,我正在使用pandas_dedupe
库。
import pandas as pd
import pandas_dedupe as pdd
df=pd.read_csv('sample.csv')
df=pdd.dedupe_dataframe(df,['firstname','lastname','gender','zipcode','address'])
#deletion part to be written here
df.to_csv('sample_deduplicated.csv')
解决方案
据我了解,您希望保留所有具有空cluster id
列的行并删除在cluster id
列中具有值的行。
您可以简单地将过滤条件设置为仅采用空cluster id
行。
df[df['cluster id'].isna()]
有关Series.isna()的参考,请参阅文档。
推荐阅读
- angular - 用 Angular 组件替换 IdentityServer4 登录页面
- excel - 尝试使用 Workbook.SendMail 给收件人时一般邮件失败
- react-native - 在搜索栏中输入文本不会过滤掉名称
- django - Django 过期预订
- django - 如何在带注释的 Django 查询集结果上列出字段值?
- google-chrome-devtools - Chrome DevTools 协议如何对 cookie 进行排序?
- javascript - ReactJS 加载函数“不是函数”
- java - 如何在此代码中使用 Java.util.Scanner 优化读取变量?
- firebase - 将 Unix 时间转换为云函数中的 firstore 时间戳
- c# - 在 C# 中使用 CsvHelper 编写类列表时输出错误