python-3.x - 从 PDF 中提取文本的最快和最简单的 Python 库是什么?(没有很多依赖项)
问题描述
我有一堆可行的解决方案,但试图获得实习生设置。他得到了某种平板电脑而不是笔记本电脑。
我们尝试了 pdftotext、PyPDF2 和 PyMuPDF。他一直遇到一些问题,比如无法阅读 PDF。也许是编解码器或其他东西。
错误本身并不是真正的问题。我认为这是一些依赖。对于 pdftotext,我安装了 Visual Studio Build Tools,一个 1Gb 包。他得到一个试图安装它的安全块。
有没有其他我可能错过的可以在没有太多安装的情况下提取文本?
解决方案
推荐阅读
- python - Openpyxl 版本 3.0.7 Workbook.create_chartsheet() 问题
- python - 如何使用 Shareplum 和 AzureAD 令牌身份验证上传 Sharepoint 列表
- reactjs - React:如何实现事件侦听器方法以从父组件中删除子组件
- youtube-api - 是否可以通过 YouTube Live Streaming API 设置直播的类别?
- algorithm - 为什么 BFS 总是给出曼哈顿距离?
- javascript - 需要 Angular 8 canActivate 才能返回 Observable
主题的 - publish-profiles - ExcludeFilesFromProject 在 Visual Studio 中不起作用
- angular - 在 Angular 应用程序中显示消息
- python - 在 Python 中组合多个 CSV
- javascript - 赛普拉斯拦截 - 在同一测试用例中使用不同的有效负载多次执行相同的 api