首页 > 解决方案 > PaddleOCR 性能与 Tesseract 相比如何?

问题描述

我最近遇到了 PaddleOCR,我想知道这个 OCR 系统与 Tesseract 相比如何。是否有可用的数据或基准?

标签: paddle-paddle

解决方案


我发现了PaddleOCR 2 和 Tesseract 4之间的比较,但仅适用于英文文本。简要总结:

  1. PaddleOCR 在 CPU 上比 Tesseract 稍慢,但在 GPU 支持下,它在标准 GPU 上比 Tesseract 快 46%。
  2. 如果没有后处理,PaddleOCR 主要会在单词和标点符号之间缺少空格而出错。但是,这些错误可以很容易地纠正。后处理后的准确性与 Tesseract 相当(少 1%)。
  3. 英语的预训练模型只有 Tesseracts 英语训练数据文件大小的 10%(2MB vs 23MB)。

对于目前似乎是 PaddleOCR 主要优先考虑的中文文本,情况可能会有所不同。


推荐阅读