apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser?
问题描述
我已经安装了 apache Tika 1.8,它运行良好,除了 OCR 部分不工作。我安装了 Tesseract,它也可以正常工作。当我尝试发送带有图像的pdf时,我得到以下信息。
警告:Tesseract OCR 已安装并将自动应用于图像文件,除非您已将 TesseractOCRParser 从默认解析器中排除。Tesseract 可能会显着减慢内容提取速度 (TIKA-2359)。从 Tika 1.15(和之前的版本)开始,自动调用 Tesseract。在未来的 Tika 版本中,用户可能需要通过 TikaConfig 打开 TesseractOCRParser。
我可以使用命令行实用程序配置 TikaConfig 吗?还是我必须克隆项目并更新 pom 并重建。我真的不想这样做。
这里有一些关于如何使用命令行实用程序和 TikaConfig 的信息,但我无法弄清楚如何使用它启用 TesseractOCRParser。
任何帮助,非常感谢。
解决方案
好的,在Apache Tika 论坛上的这篇文章的帮助下谢谢你们。
我设法让它工作。它是一个黑客,但它有效。我所做的是提取 Tika-app Jar 文件。然后找到 PDFParser.properties 并像这样更改以下属性
extractInlineImages true
extractUniqueInlineImagesOnly false
ocrStrategy ocr_and_text_extraction
然后找到 TesseractOCRConfig.properties。并将这一属性更改为 1..
enableImageProcessing=1
保存上述属性文件。重新拉上拉链。并使用您的新压缩 jar 文件,它现在将从 pdf 文件中的图像中提取文本和文本。
推荐阅读
- javascript - 如何在 React Native 中进行预取并将数据持久化到本地存储而不阻塞 UI?
- javascript - React-Hooks:在 ContextAPI 中未定义“警报”
- c++ - 双端队列的容量
- tensorflow - AttributeError:模块'tensorflow'没有在Pycharm中运行的属性'compat'
- azure - Azure:列出服务主体的权限
- postgresql - PostgreSQL 中的慢事务处理
- laravel - 我正在尝试使用 WhereAs 从两个带有 laravel 的表中获取记录
- python-3.x - Python - 在 ML 代码中。出现错误:IndexError:列表索引超出范围
- xml - XSl:空格
- ios - 使用 Carthage 安装 AudioKit Core