apache-tika - 如何使用 Apache Tika Server 从 PDF 中提取内联图像并将其保存为文件?
问题描述
有没有办法做到这一点?我在 PUT 请求中使用以下标头http://localhost:9998/tika
"Content-Type", "application/pdf"
"X-Tika-OCRLanguage", "eng"
"X-Tika-PDFextractInlineImages", "true"
"X-Tika-PDFOcrStrategy", "no_ocr"
响应是否包含图像?如果是这样,我该如何保存它们?
使用 Apache Tika 服务器 1.26
解决方案
响应将是字符串而不是图像标志:PDFOcrStrategy 告诉 tika 使用 ocr (tesseract) 或仅尝试从没有 ocr 的文档中提取文本 - 对于本机 pdf 很有用
标志: PDFextractInlineImages 告诉 tika 忽略/包含嵌入的图像
因此,当您拥有扫描的 pdf 文件时,您应该使用
“X-Tika-PDFextractInlineImages”、“true”、“X-Tika-PDFOcrStrategy”、“ocr_only”作为原生 pdf 文件“X-Tika-PDFextractInlineImages”、“false”“X-Tika -PDFOcrStrategy", "no_ocr" 但在这两种情况下 tika 都会返回文本
如果您想从 pdf 文档 IMO 中获取图像,您应该使用 pdf 框或类似的库。tika 的目标是从输入中返回文本
推荐阅读
- prometheus - 如何忽略 Prometheus 中的实例标签
- date - 在 Android 手机上单击 input = "date" 时 PWA 退出全屏并显示顶部栏
- dolphindb - 如何获取历史查询的执行信息?
- angular - 无法以角度从 firestore db 查询用户数据
- python - 如果条件适用,则从其他数据框中添加数据框列
- python - 如何从每行python的列表中提取单词
- java - Spring 云负载均衡器 - 带有健康检查/重试的 Feign + SimpleDiscoveryClient
- android - 在常规 android 应用程序中使用 IPowerStats.hal 的 HIDL 接口?
- ansible - 如何从任务中搜索 json 输出
- linux - 无法将当前日期写入 HDFS 目录