首页 > 解决方案 > PDF 和 Word 提取覆盖在图像上的文本

问题描述

用于处理 PDF 或 Microsoft Word(DOC、DOCX)内容的工具,在解析带有覆盖在其上的文本标签的图像的文档时,将这些标签分别提取到图像中。结果是在没有覆盖文本的情况下提取每个这样的图像,然后是该文本的一个或多个段落,脱离上下文。

在这种情况下,像 (a) 这样的图像

-------------
|  Level 2  |
-------------
|  Level 1  |
-------------

被提取为(b)

-------------
|           |
-------------
|           |
-------------

Level 2
Level 1

这是用于PDFWord处理的工具的“标准”行为,例如 Apache PDFBoxPOI

有没有办法在 Apache 工具或任何其他类似工具中处理这个问题?

理想的解决方案是将图像和标签作为单个实体提取,如上面的 (a)。或者,可以一起停用图像和标签提取。

最终,应该有办法避免标签对文档文本的“污染”,否则这些标签会显得内容不足。

标签: imagepdfapache-poipdfboxdocx

解决方案


推荐阅读