首页 > 解决方案 > 如何删除python中的重复值?

问题描述

我在这里添加了一个excel图像!我使用 python 对 Excel 表进行了重复数据删除。重复数据删除后,它有一cluster id列。一组重复行的簇 id 可以为 0,表示这 n 行具有相同的值。现在,对于唯一的行,集群 id 没有值,甚至没有,它只是空的。我只想删除那些具有cluster id值的行,以便我可以拥有所有不同的行。对于重复数据删除,我正在使用pandas_dedupe库。

import pandas as pd
import pandas_dedupe as pdd
df=pd.read_csv('sample.csv')
df=pdd.dedupe_dataframe(df,['firstname','lastname','gender','zipcode','address'])
#deletion part to be written here
df.to_csv('sample_deduplicated.csv')

标签: pythonpandasduplicatesrecord-linkage

解决方案


据我了解,您希望保留所有具有空cluster id列的行并删除在cluster id列中具有值的行。

您可以简单地将过滤条件设置为仅采用空cluster id行。

df[df['cluster id'].isna()]

有关Series.isna()的参考,请参阅文档


推荐阅读