image - 用于从图像中提取文本的 tesseract 的 solr tika 配置
问题描述
我正在配置 solr 从图像中提取文本。我安装了 tesseractOCR 并添加了 tika-parser jar 的 TesseractOCRConfig.properties 的路径。但我无法从图像中提取文本。当我使用 tesseract 运行它来提取图像时,它工作正常。有什么方法可以用 tika jar 测试它是否正确调用 tesseract。我尝试在 2 个 Windows 机器上进行配置,但没有运气。在 solr 中,我什至可以在 parsed_by 中找到以下内容,
org.apache.tika.parser.DefaultParser,
org.apache.tika.parser.ocr.TesseractOCRParser,
org.apache.tika.parser.image.ImageParser
属性文件:tesseractPath=E:/solr/Tesseract-OCR language=eng 我需要下载并启动 tika-server-1.23.jar 吗?我看到了所有可能的可用链接,找不到任何对我有用的东西。
解决方案
推荐阅读
- performance - 什么度量描述了所用时间与结果中的错误之间的关系?
- ios - 调整字体大小以适应标签高度 - Swift 4、Xcode 9
- r - R 是一个 1 行矩阵或 1 列矩阵的向量
- python - 多类别 one-hot 编码到数据透视表
- python - 循环遍历数据框的行并检查重复项
- javascript - Mongoose - 在集合中找不到任何内容时进行分组、计数并返回 0
- c# - 将 BoxCollider 从其他对象添加到当前对象
- node.js - node.js 中的回调外部函数声明
- html - HTML 如何让一个锚点将多个框架集更改为不同的东西
- javascript - 数组的变量赋值在javascript中如何表现?