首页 > 解决方案 > 在 Python 中从 PDF 文件中提取文本

问题描述

我正在尝试从我通常必须在工作中处理的 pdf 文件中提取文本,以便将其自动化。

例如,使用 PyPDF2 时,它适用于我的简历,但不适用于我的工作文档。问题是,文本是这样的:“Helloworldthisisthetext”。然后我尝试使用.join(“”),但这不起作用。

我读到这是 PyPDF2 的一个已知问题 - 它似乎取决于 pdf 的构建方式。

有谁知道另一种方法如何从中提取文本,然后我可以将其用于进一步的步骤?

先感谢您

标签: pythonpypdf2

解决方案


我在工作中有类似的要求,为此我使用了 PyMuPDF。他们还有一系列涵盖文本提取典型场景的食谱。


推荐阅读