首页 > 解决方案 > 与 Chrome 浏览器类似,如何使用 Python 从 PDF 中提取文本?

问题描述

我正在尝试从 pdf 文件中提取文本(类似于表单)。目前,我在 Chrome 上打开文件,选择/复制所有文本,将其粘贴到 txt 文件中,然后使用 Python 将其处理为 CSV。Chrome 让我拥有非常结构化和统一的数据,因此 pdf 的每一页都会产生类似的文本块,让我可以轻松处理它。

我正在尝试直接从 pdf 中提取文本,将其处理为 CSV 格式,但由于生成原始 pdf 的方式,我总是得到一些混乱的结果。我已经尝试过 pdfminer 和 pyPdf2,但是当表单在某些字段中缺少值时,结果会变得混乱。

也许这是一个笼统的问题,但是,我怎样才能在我的提取中获得更有条理的结果?

标签: pythonpdftext-extraction

解决方案


并非所有 PDF 都嵌入了文本。有些是嵌入图像中的文本。因此,要获得适用于所有 PDF 的通用解决方案,就是使用 OCR。

步骤 1) 将 PDF 转换为图像

步骤 2) 使用 pytessract 执行 OCR:使用 pytesseract OCR 从图像中识别文本


推荐阅读