首页 > 解决方案 > 是否有基于 OCR 的字符距离的公开数据?

问题描述

我正在寻找“字符视觉相似性”加权数据(不是算法)以插入加权 Damerau-Levenshtein 算法。

问题

目前,我正在使用 Google 的 Vision AI(一项付费 OCR 服务)来执行将图像转换为文本的 OCR 转换。然后我想寻找一个短语的存在。例如,。如果 OCR 结果包含(被 OCR 误读),那么我可以使用基本的 Damerau-Levenshtein 算法来找出具有 distance和 length的子字符串。成功!The Old Man and the SeaThe Old Man and the Sca123

但是我遇到的问题是当我搜索一个(人为的)示例时,但图像包含短语。这是一个误报,因为它不是 OCR 错误分类。但它仍然返回一个非常有说服力的带有距离和长度的子字符串。根据我自己的判断,我推断和在视觉上相似,但不是。Disney's TangledWalt Disney's mangled vision116ceTm

我试过的

我最初试图用基本的 Damerau-Levenshtein 距离解决一些人为的例子,然后尝试了一些正则表达式。例如,/The Old Man and the S[ce]a/。我很快意识到这将演变/[5S][eo]cti[oe]n [1lI\|][1lI\|]3[B8]/为 match之类的模式Section 113B。我没有机器学习经验,但我的研究使我得到了以下问题的公认答案: 如何确定字符相似度?以及 OCR 和字符相似度。虽然它不足以满足我的需求,但它启发了我开始制作一个简单的通用角色属性图表,以寻找相似之处:

字符 左侧轮廓 正确的配置文件 顶级配置文件 底部轮廓 高度
一个 低缩进 低平 曲线 曲线 一半
b 平坦的 低曲线 曲线,点 曲线 满的
C 低曲线 低缩进 曲线 曲线 一半

在我进一步深入这个兔子洞之前,我想问一下我想要的目标是否已经公开存在(付费服务或免费)。

目标

我的目标是获得一个比较全面的权重字典。例如:c可以替换e为 的任意权重0.3,而不是 的标准替换成本1.0。这是因为c并且e在视觉上足够相似,以至于 OCR 引擎可能会将一个误认为另一个。同样,X可以用 代替K任意权重0.4。这可能会产生一个 JSON 字典,如下所示:

{
  "A": {
    "4": 0.3,
    "R": 0.6
    // ...
  },
  "B": {
    "8" : 0.4,
    "3" : 0.8,
    "R" : 0.7,
    // ...
  }
  // ...
}

接受的答案

将包括以下一项或多项:

  1. 链接到已经计算过的公开可用的“视觉相似性数据”。
  2. 链接到预训练模型,其数据可以被处理成类似于上述 JSON 对象的东西(以及如何处理此对象的一般信息)。
  3. 您如何解决此问题或类似问题的示例,以及您提出的输出。
  4. 对要查找的其他字符属性的建议。
  5. 提供类似于上述 JSON 对象的付费服务的建议。

标签: datasetocrweighteddamerau-levenshtein

解决方案


推荐阅读