python - Python 记录链接、模糊匹配和去重
问题描述
我有 3 个包含 7 列的客户数据集。
顾客姓名
地址
电话
店名
移动的
经度
纬度
每个数据集有 13000-18000 条记录。我试图模糊匹配它们之间的重复数据删除。我的数据集列在此匹配中的权重不同。我怎么能处理????你知道我的案例的好图书馆吗?
解决方案
我认为 Recordlinkage 库会适合您的目的
您可以使用比较对象,需要各种匹配:
compare_cl.exact('CustomerName', 'CustomerName', label='CustomerName')
compare_cl.string('StoreName', 'StoreName', method='jarowinkler', threshold=0.85, label='surname')
compare_cl.string('Address', 'Address', threshold=0.85, label='Address')
然后定义匹配,您可以自定义您想要的结果,即如果您希望至少匹配 2 个功能
features = compare_cl.compute(pairs, df)
matches = features[features.sum(axis=1) > 3]
推荐阅读
- c# - C#:读取 XML 文件(Rekordbox 输出 XML)、修改、保存回来
- python - 我导入模块 TinyMCE 和 django 不工作
- c++ - 使用 3 个输入而不是 2 个输入时收到 malloc 错误
- ios - 处理 CoreData 时 EXC_BAD_ACCESS 代码 = 2
- python - 为什么这个函数不从这些字典键中删除所有句点?
- python - 周期性目标变量的回归
- python - 烧瓶从内容中获取状态?
- asp.net-core - Modelstate 无效,因为我创建的密码无效
- java - 解析日期在 Android 工作者中以非确定性方式工作
- sql - Azure 表单识别 JSON 响应到 Microsoft SQL 表