首页 > 解决方案 > 从 PDF 中提取文本的最快和最简单的 Python 库是什么?(没有很多依赖项)

问题描述

我有一堆可行的解决方案,但试图获得实习生设置。他得到了某种平板电脑而不是笔记本电脑。

我们尝试了 pdftotext、PyPDF2 和 PyMuPDF。他一直遇到一些问题,比如无法阅读 PDF。也许是编解码器或其他东西。

错误本身并不是真正的问题。我认为这是一些依赖。对于 pdftotext,我安装了 Visual Studio Build Tools,一个 1Gb 包。他得到一个试图安装它的安全块。

有没有其他我可能错过的可以在没有太多安装的情况下提取文本?

标签: python-3.xpdf

解决方案


推荐阅读