首页 > 解决方案 > 解析文档时如何用另一个字符串替换文档中字符串的一部分

问题描述

我有一个已解析的 PDF 文档,我使用 java 中的库对其进行了解析。问题是文档中的表格没有正确解析,它被解析为文本(逐行)。所以我在 Python 中使用了一个名为 Camelot 的库,它为我提供了解析后的表格格式,然后我将其发送给了 java。我需要用来自 Camelot 的表格替换 PDF 解析表格,并保持其余表格完整。文档中有多个表,因此解析的表作为字符串列表返回,每个索引给出每个表的解析值。

boundaryEND标签表示 Camelot 输出的附加图像中每个表格的结尾。

我尝试通过调用该allmatch()方法来使用流,但无法替换该部分,因为allmatch()给出了boolean()值(仅指示字符串是否匹配,而不是这样给出元素)。camelot 的输出是这样的

Java解析的pdf

标签: javapythonspringstringpdf

解决方案


这可以通过使用自定义收集器的 Stream API 来完成。检查此链接:使用 Stream api 根据条件将列表拆分为子列表


推荐阅读