首页 > 解决方案 > 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser?

问题描述

我已经安装了 apache Tika 1.8,它运行良好,除了 OCR 部分不工作。我安装了 Tesseract,它也可以正常工作。当我尝试发送带有图像的pdf时,我得到以下信息。

警告:Tesseract OCR 已安装并将自动应用于图像文件,除非您已将 TesseractOCRParser 从默认解析器中排除。Tesseract 可能会显着减慢内容提取速度 (TIKA-2359)。从 Tika 1.15(和之前的版本)开始,自动调用 Tesseract。在未来的 Tika 版本中,用户可能需要通过 TikaConfig 打开 TesseractOCRParser。

我可以使用命令行实用程序配置 TikaConfig 吗?还是我必须克隆项目并更新 pom 并重建。我真的不想这样做。

这里有一些关于如何使用命令行实用程序和 TikaConfig 的信息,但我无法弄清楚如何使用它启用 TesseractOCRParser。

任何帮助,非常感谢。

标签: apacheconfigurationocrtesseracttika-server

解决方案


好的,在Apache Tika 论坛上的这篇文章的帮助下谢谢你们。

我设法让它工作。它是一个黑客,但它有效。我所做的是提取 Tika-app Jar 文件。然后找到 PDFParser.properties 并像这样更改以下属性

extractInlineImages true 
extractUniqueInlineImagesOnly false 
ocrStrategy ocr_and_text_extraction

然后找到 TesseractOCRConfig.properties。并将这一属性更改为 1..

enableImageProcessing=1

保存上述属性文件。重新拉上拉链。并使用您的新压缩 jar 文件,它现在将从 pdf 文件中的图像中提取文本和文本。


推荐阅读