首页 > 解决方案 > 如何检测 PDF 中的选项卡?

问题描述

例如,假设我想从这个 PDF 中提取所有子句,例如提取到单独的 excel 单元格中。 带有子句/标签的示例 PDF

如果我可以检测到每次有一个选项卡,即条款编号和文本之间的空格,如图所示,我认为这将检测 PDF 中每个条款的开头,我可以提取所有文本之间的条款的开始。

在此处输入图像描述

我试过 python pdf 阅读器,我试过将 pdf 转换为 word 文档,然后使用 python docx 阅读器。不过,我无法始终如一地检测到 PDF 中如此清晰的标签。有谁知道我怎么能做到这一点?

标签: pythonpython-3.xxmlpdfdocx

解决方案


推荐阅读