dataset - 是否有基于 OCR 的字符距离的公开数据?
问题描述
我正在寻找“字符视觉相似性”加权数据(不是算法)以插入加权 Damerau-Levenshtein 算法。
问题
目前,我正在使用 Google 的 Vision AI(一项付费 OCR 服务)来执行将图像转换为文本的 OCR 转换。然后我想寻找一个短语的存在。例如,。如果 OCR 结果包含(被 OCR 误读),那么我可以使用基本的 Damerau-Levenshtein 算法来找出具有 distance和 length的子字符串。成功!The Old Man and the S
e
a
The Old Man and the S
c
a
1
23
但是我遇到的问题是当我搜索一个(人为的)示例时,但图像包含短语。这是一个误报,因为它不是 OCR 错误分类。但它仍然返回一个非常有说服力的带有距离和长度的子字符串。根据我自己的判断,我推断和在视觉上相似,但不是。Disney's
T
angled
Walt Disney's
m
angled vision
1
16
c
e
T
m
我试过的
我最初试图用基本的 Damerau-Levenshtein 距离解决一些人为的例子,然后尝试了一些正则表达式。例如,/The Old Man and the S[ce]a/
。我很快意识到这将演变/[5S][eo]cti[oe]n [1lI\|][1lI\|]3[B8]/
为 match之类的模式Section 113B
。我没有机器学习经验,但我的研究使我得到了以下问题的公认答案:
如何确定字符相似度?以及
OCR 和字符相似度。虽然它不足以满足我的需求,但它启发了我开始制作一个简单的通用角色属性图表,以寻找相似之处:
字符 | 左侧轮廓 | 正确的配置文件 | 顶级配置文件 | 底部轮廓 | 高度 |
---|---|---|---|---|---|
一个 | 低缩进 | 低平 | 曲线 | 曲线 | 一半 |
b | 平坦的 | 低曲线 | 曲线,点 | 曲线 | 满的 |
C | 低曲线 | 低缩进 | 曲线 | 曲线 | 一半 |
在我进一步深入这个兔子洞之前,我想问一下我想要的目标是否已经公开存在(付费服务或免费)。
目标
我的目标是获得一个比较全面的权重字典。例如:c
可以替换e
为 的任意权重0.3
,而不是 的标准替换成本1.0
。这是因为c
并且e
在视觉上足够相似,以至于 OCR 引擎可能会将一个误认为另一个。同样,X
可以用 代替K
任意权重0.4
。这可能会产生一个 JSON 字典,如下所示:
{
"A": {
"4": 0.3,
"R": 0.6
// ...
},
"B": {
"8" : 0.4,
"3" : 0.8,
"R" : 0.7,
// ...
}
// ...
}
接受的答案
将包括以下一项或多项:
- 链接到已经计算过的公开可用的“视觉相似性数据”。
- 链接到预训练模型,其数据可以被处理成类似于上述 JSON 对象的东西(以及如何处理此对象的一般信息)。
- 您如何解决此问题或类似问题的示例,以及您提出的输出。
- 对要查找的其他字符属性的建议。
- 提供类似于上述 JSON 对象的付费服务的建议。
解决方案
推荐阅读
- python - 是否可以堆叠formset_factory,inlineformset_factory - Django
- javascript - 使用 Angular Material 的 Mat-Select Multiple - 有没有办法在用户选择后将所选选项移动到数组列表的顶部?
- javascript - jQuery uncaught $.ajax 不是烧瓶上的函数
- python - python服务器和C#客户端之间的通信(Unity)
- delete-file - 按文件名删除文件以确定 WinSCP 中的日期
- javascript - 如何在javascript中隐藏重音字符?
- azure - SSH 到 Docker 容器的 Azure 应用服务
- java - 我不知道为什么我的数组没有用 Java 填充
- php - NotFoundHttpException Laravel/流明
- jquery - 滚动上的动画 SVG 路径