首页 > 解决方案 > 如何忽略tika中的扫描图像

问题描述

我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。

标签: python-3.xapache-tikatika-server

解决方案


要忽略内联图像,您应该使用标志“X-Tika-PDFextractInlineImages: false”

pdfParserConfig.setExtractInlineImages(false)

但老实说,将值设置为 false 仅对“本机 pdf”有意义

对于扫描的文档,此标志必须设置为 true,而不是唯一的改进过程的方法是打开 ocr 并使用 OcrStrategy:OCR_ONLY


推荐阅读