python-3.x - 如何忽略tika中的扫描图像
问题描述
我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。
解决方案
要忽略内联图像,您应该使用标志“X-Tika-PDFextractInlineImages: false”
pdfParserConfig.setExtractInlineImages(false)
但老实说,将值设置为 false 仅对“本机 pdf”有意义
对于扫描的文档,此标志必须设置为 true,而不是唯一的改进过程的方法是打开 ocr 并使用 OcrStrategy:OCR_ONLY
推荐阅读
- selenium - 单击链接后,Selenium 驱动程序未反映更新
- r - 从谷歌驱动器将数据读入 R
- mysql - 检索特定时间范围内的值的总和
- amazon-web-services - AWS JWT 授权者不支持谷歌发行者
- ios - PHAsset 无法获取
- c++ - 在 C++ 中传入 vs 分配 const 引用
- windows - 尝试批量重命名文件夹
- python - 我无法使用最新的 opencv 版本创建识别器
- android - Android Studio 多预览?
- google-cloud-platform - 访问 Google Cloud Storage (Bucket) 中的 xml 文件是一项操作吗?