python - 如何通过 PyPDF2 从 PDF 表单中获取特定元素
问题描述
我无法理解 PDF 数据提取。我一直在通过将现有 PDF 与仅包含作为水印所需的文本字段的 PDF 合并来构建 PDF 表单。文本字段的创建和合并是通过 PyPDF2 完成的。
现在我正在尝试提取在文本字段中输入的数据。PyPDF2 官方文档中关于该过程的文档相当简陋,除了获取完整的页面内容外,在网上找不到很多教程或直接解决方案。
有没有办法只获取文本字段的内容?我如何处理单个元素?我已经尝试过getFormTextFields()方法,但它只是抛出了一个 None,我知道为什么会这样。
我也一直在使用 PDF Structure Viewer CosEdit 以某种方式获取我需要的信息,我找到的信息显示在下面的屏幕截图中。你所看到的(至少我认为)是我需要的“元素”。文本字段内容显示在键“V”中(标记为红色)。我不知道如何继续,因为我不知道如何处理这个特定元素。
希望你能帮忙!
解决方案
推荐阅读
- python - 如何在一个终端命令中从文件夹启动 .py
- flutter - 在颤动的页面之间共享数据的最佳方式
- shopify - Shopify - 切换变体时更改显示(液体)
- python - 如何在谐波图像中找到孔的位置?
- java - 它将反转纯文本,用“*”替换空格,然后根据加密密钥移动纯文本的字母
- javascript - 使活动超链接不透明而其他超链接透明
- docker - 分叉的 docker 映像未构建
- python - 我正在尝试创建一个登录页面,但登录后下载了一个 0 kb 的文件并且 CSRF 验证失败
- vim - 在 Vim 中为不同的语言设置不同的设置
- html - 图片没有响应