ocr - 有没有办法让 textract 将 pdf 图像呈现为 excel 数据表?
问题描述
我有一个数据表的 pdf,但它只是一个图像。意思是,我无法从中复制和粘贴值,并且 OCR 不可用。有没有办法使用 textract(或其他一些服务)来让数据表变得优秀?
解决方案
您可以将 textract 用于其中的一部分,但没有办法很好地构建结果。例如,您可以列出包含“行”的文本块的长列表,但您需要一种类似于它们在 PDF 中的原始数据表中的结构方式来构造它们的方法。特别是最后一部分使这个问题非常具有挑战性。
推荐阅读
- android - 如何使用 TWA 元标记制作渐变闪屏?
- fullpage.js - fullpage.js 响应式幻灯片扩展问题
- javascript - 如何使 Bootstrap 下拉列表尊重移动设备上的水平视口限制?
- c# - 为什么 Nest ElasticCleint.Scroll 会抛出 System.IO.IOException?
- javascript - 当 gif 结束时触发另一个 gif
- ios - 每次点击应用图标时,iOS 13 应用都会请求一个新场景
- php - Error_log:PHP 警告:遇到非数字值
- c++ - 如何保持 C++ COM 对象的实现类的 const 正确性?
- python - 不好:无法使用 pip 安装 Dlib
- sqlite - 如何使用 typeorm 向现有实体添加新列