image - PDF 和 Word 提取覆盖在图像上的文本
问题描述
用于处理 PDF 或 Microsoft Word(DOC、DOCX)内容的工具,在解析带有覆盖在其上的文本标签的图像的文档时,将这些标签分别提取到图像中。结果是在没有覆盖文本的情况下提取每个这样的图像,然后是该文本的一个或多个段落,脱离上下文。
在这种情况下,像 (a) 这样的图像
-------------
| Level 2 |
-------------
| Level 1 |
-------------
被提取为(b)
-------------
| |
-------------
| |
-------------
Level 2
Level 1
这是用于PDF
或Word
处理的工具的“标准”行为,例如 Apache PDFBox和POI。
有没有办法在 Apache 工具或任何其他类似工具中处理这个问题?
理想的解决方案是将图像和标签作为单个实体提取,如上面的 (a)。或者,可以一起停用图像和标签提取。
最终,应该有办法避免标签对文档文本的“污染”,否则这些标签会显得内容不足。
解决方案
推荐阅读
- angular6 - 如何更改agGrid中的复选框图标(例如:漂亮的复选框)?
- ios - 未调用 URLSession 委托方法
- git - Magit 找不到本地安装的 git 版本
- java - 如何用 Jackson 解析嵌套的转义 json?
- python - PyCharm 2018.3.3 重新格式化代码导致文字字符串损坏
- c# - 在 C# 中从十进制转换为双精度时出现错误
- java - 从 Spring serverrequest 获取字符串主体
- javascript - 在网页的日期字段中插入数据
- python - 如何匹配和合并两个除单个单词外具有完全不同值的数据框?ABC 有 10 行,XYZ 有 22550 行
- javascript - Material-ui表格行onClick绕过复选框选择