首页 > 解决方案 > 如何通过 PyPDF2 从 PDF 表单中获取特定元素

问题描述

我无法理解 PDF 数据提取。我一直在通过将现有 PDF 与仅包含作为水印所需的文本字段的 PDF 合并来构建 PDF 表单。文本字段的创建和合并是通过 PyPDF2 完成的。

现在我正在尝试提取在文本字段中输入的数据。PyPDF2 官方文档中关于该过程的文档相当简陋,除了获取完整的页面内容外,在网上找不到很多教程或直接解决方案。

有没有办法只获取文本字段的内容?我如何处理单个元素?我已经尝试过getFormTextFields()方法,但它只是抛出了一个 None,我知道为什么会这样。

我也一直在使用 PDF Structure Viewer CosEdit 以某种方式获取我需要的信息,我找到的信息显示在下面的屏幕截图中。你所看到的(至少我认为)是我需要的“元素”。文本字段内容显示在键“V”中(标记为红色)。我不知道如何继续,因为我不知道如何处理这个特定元素。

CosEdit PDF-Element 位置

希望你能帮忙!

标签: pythonpdfdata-sciencepypdf2

解决方案


推荐阅读