首页 > 解决方案 > Openrefine - 由第二个或第三个候选人协调

问题描述

使用协调服务时,我经常遇到这个问题:最好的候选人并不是真正正确的,最好的是第二或第三候选人(广告它也有更好的分数),像这样:

第三个候选人是正确的

如何批量选择正确的?我有数千条记录,我偶然发现了很多这样的案例。我觉得应该是某种方式,不是一一做的。

例如,上面写着“无论其位置如何,都获得最佳候选人分数”。

编辑:正如pintoch所说,这可能是一个错误。与此同时,可以创建两个数字方面。一个与cell.recon.candidates[1].score另一个与cell.recon.candidates[2].score。与他们一起玩可以选择第三名和第二名候选人的分数,以确保您获得最高分数的候选人。然后就得一一调和,不过只是点击的问题。

标签: openrefinedatabase-reconciliation

解决方案


我会说这种行为首先是一个错误:候选人应该按分数递减排序。协调服务 API未指定服务应以任何特定顺序返回其候选者,但这可能是无意的。

最快的解决方案是联系运行您正在使用的核对服务的人员,并要求他们通过降低候选人的分数来对候选人进行排序。

这也暗示了 OpenRefine 本身的改进:OpenRefine 总是可以通过降低分数来对协调服务的结果进行排序。我已经为此开了一张票

更广泛地说,我同意当前基于特定标准匹配候选人的方法可以改进(但这可能需要重新设计核对系统的重要部分,这需要时间)。


推荐阅读