首页 > 解决方案 > 用于从图像中提取文本的 tesseract 的 solr tika 配置

问题描述

我正在配置 solr 从图像中提取文本。我安装了 tesseractOCR 并添加了 tika-parser jar 的 TesseractOCRConfig.properties 的路径。但我无法从图像中提取文本。当我使用 tesseract 运行它来提取图像时,它工作正常。有什么方法可以用 tika jar 测试它是否正确调用 tesseract。我尝试在 2 个 Windows 机器上进行配置,但没有运气。在 solr 中,我什至可以在 parsed_by 中找到以下内容, org.apache.tika.parser.DefaultParser, org.apache.tika.parser.ocr.TesseractOCRParser, org.apache.tika.parser.image.ImageParser

属性文件:tesseractPath=E:/solr/Tesseract-OCR language=eng 我需要下载并启动 tika-server-1.23.jar 吗?我看到了所有可能的可用链接,找不到任何对我有用的东西。

标签: imagesolrtesseractapache-tika

解决方案


推荐阅读