python - 减少人员数据库中数据重复的技术
问题描述
我们将为特定行业建立一个人员数据库。这些信息将来自许多不同的来源(主要是网络抓取和公共数据库)。
并非每个来源都有可用的唯一 ID(例如税号),因此我们正在寻找减少重复数据的方法。
我们正在考虑对人的电子邮件和姓名进行哈希处理,并将其用作一种唯一键。
任何有助于我们减少重复的方法/建议将不胜感激。
如果有用的话,我们将使用 MongoDb 和许多不同的 python 脚本。
干杯!
解决方案
推荐阅读
- python - 什么是解析具有不同数据类型的 JSON 响应的好方法?
- node.js - TypeError:无法读取未定义的 Youtube 数据 API 身份验证 NodeJS 的属性“redirect_uris”
- react-native - 反应原生顶部标签栏导航器:指示器宽度以匹配文本
- python - “黑名单”或从 Python 函数的返回中删除某些内容?
- undefined - 打开 index.html 但结果是未定义
- javascript - browser.runtime.sendMessage:“接收端不存在”
- python - 随机森林分类如何在幕后工作?
- javascript - 在轮播控件中单击按钮打开表单
- mongodb - 如何在事务期间从 MongoDB 创建操作中检索 id?
- c++ - LD_LIBRARY_PATH 与构建时间参数