首页 > 解决方案 > 减少人员数据库中数据重复的技术

问题描述

我们将为特定行业建立一个人员数据库。这些信息将来自许多不同的来源(主要是网络抓取和公共数据库)。

并非每个来源都有可用的唯一 ID(例如税号),因此我们正在寻找减少重复数据的方法。

我们正在考虑对人的电子邮件和姓名进行哈希处理,并将其用作一种唯一键。

任何有助于我们减少重复的方法/建议将不胜感激。

如果有用的话,我们将使用 MongoDb 和许多不同的 python 脚本。

干杯!

标签: pythondatabasemongodbduplicates

解决方案


推荐阅读