首页 > 解决方案 > 如何在模糊匹配熊猫重复数据删除单个数据帧中获取行索引

问题描述

考虑到我有以下数据集df

指数 姓名 出生日期
0 丹尼斯·摩尔 2017-11-18
1 罗伯特·奈特 2008-04-24
2 艾丽卡·马丁内斯 1940-10-28
3 加里·吉尔 1993-05-05
4 马修冈萨雷斯 2016-07-16
5 丹尼斯·摩尔 2017-11-18
6 罗伯特·克梅特 2008-04-24

我正在使用该pandas_dedupe包通过执行以下命令来检查模糊匹配:

dup=pandas_dedupe.dedupe_dataframe(df,['Name','BirthDate'])

我希望得到以下输出:

指数 姓名 出生日期 匹配索引 匹配名称 match_BirthDate
0 丹尼斯·摩尔 2017-11-18 5 丹尼斯·摩尔 2017-11-18
1 罗伯特·奈特 2008-04-24 6 罗伯特·克梅特 2008-04-24
2 艾丽卡·马丁内斯 1940-10-28 2 艾丽卡·马丁内斯 1940-10-28
3 加里·吉尔 1993-05-05 3 加里·吉尔 1993-05-05
4 马修冈萨雷斯 2016-07-16 4 马修冈萨雷斯 2016-07-16
5 丹尼斯·摩尔 2017-11-18 0 丹尼斯·摩尔 2017-11-18
6 罗伯特·克梅特 2008-04-24 1 罗伯特·奈特 2008-04-24

我怎样才能做到这一点?

标签: fuzzywuzzypython-dedupe

解决方案


推荐阅读