首页 > 解决方案 > Python 记录链接、模糊匹配和去重

问题描述

我有 3 个包含 7 列的客户数据集。

顾客姓名

地址

电话

店名

移动的

经度

纬度

每个数据集有 13000-18000 条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理????你知道我的案例的好图书馆吗?

标签: pythonduplicatesfuzzywuzzyrecord-linkagepython-dedupe

解决方案


我认为 Recordlinkage 库会适合您的目的

您可以使用比较对象,需要各种匹配:

compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')

然后定义匹配,您可以自定义您想要的结果,即如果您希望至少匹配 2 个功能

features = compare_cl.compute(pairs, df)    
matches = features[features.sum(axis=1) > 3]

推荐阅读