record-linkage - 记录跨多个数据集的链接的最佳方法
问题描述
我一直在尝试使用 dedupe 库来使用 2 个数据集进行记录链接。我现在想用它来链接 10 个(或更多)数据集中的记录。
没有规范的数据集。一条记录可能只出现在其中一个数据集中,最多出现在所有十个数据集中,但只会在单个数据集中出现一次(该数据集独有)。
链接记录的最佳方式是什么?记录链接同时比较两个数据集;要跨多个数据集进行比较,我需要相互比较。例如,如果我有 3 组(A、B、C),我需要比较 A&B、A&C 和 B&C。这是否正确?直觉上,我认为像这样链接数据集彼此独立可能会创建虚假链接,其中记录 A1 链接到 B1,B1 链接到 C1,但 A1 无法链接到 C1;C1 应该被认为是链接的吗?文档指出这是一个挑战。
那么将其视为一个大型数据集并在整个数据中查找重复项会更好吗?这会改善结果吗?会有什么弊端?
解决方案
推荐阅读
- java - 在java中读取GZIP文件导致ZLIB输入流意外结束
- c - 有没有办法将 .so 文件转换为 .c 文件?
- php - WooCommerce 源代码中没有 src 的 wp_enqueue_script()
- java - 以下 Web 应用程序已停止,但它们之前运行的类仍加载到内存中,从而导致内存泄漏
- javascript - 使用 Node js 的基于 Rest API 的 TCP 客户端
- python - 如何在更新 django 表单时自动填充字段?
- validation - Imagenet ILSVRC2014 验证基本事实到同义词集标签翻译不准确
- angular - 为什么在 d3 v5 中不会调用 exit() 函数?
- android - 使用 Proguard 时的 META-INF/版本重复错误
- swift - 什么样的 URL 不符合 RFC 3986 但符合 RFC 1808、RFC 1738 和 RFC 2732?