paddle-paddle - PaddleOCR 性能与 Tesseract 相比如何?
问题描述
我最近遇到了 PaddleOCR,我想知道这个 OCR 系统与 Tesseract 相比如何。是否有可用的数据或基准?
解决方案
我发现了PaddleOCR 2 和 Tesseract 4之间的比较,但仅适用于英文文本。简要总结:
- PaddleOCR 在 CPU 上比 Tesseract 稍慢,但在 GPU 支持下,它在标准 GPU 上比 Tesseract 快 46%。
- 如果没有后处理,PaddleOCR 主要会在单词和标点符号之间缺少空格而出错。但是,这些错误可以很容易地纠正。后处理后的准确性与 Tesseract 相当(少 1%)。
- 英语的预训练模型只有 Tesseracts 英语训练数据文件大小的 10%(2MB vs 23MB)。
对于目前似乎是 PaddleOCR 主要优先考虑的中文文本,情况可能会有所不同。
推荐阅读
- javascript - 为现有库添加自定义类型定义
- javascript - JavaScript 更平滑的乘法循环
- flask - 通过 apscheduler 更新值后如何重新渲染我的 html
- reactjs - 如何在用户触发的事件上触发自定义 useFetch 挂钩?
- reactjs - 当我的 redux 商店更新时,useContext 返回 undefined
- firebase - 引发了另一个异常:“ErrorSummary”实例 - 部署 Flutter Web 后的空白特定页面
- html - 将表单字段中的插入值复制到同一表单中的隐藏元素。Odoo HTML 表单生成器
- css - reactjs with material ui - appbar不支持渐变
- javascript - 页面刷新后,Material UI Button 失去样式
- c++ - 对可能的引用类型的要求专门化构造函数