python - 在 Python 中从 PDF 文件中提取文本
问题描述
我正在尝试从我通常必须在工作中处理的 pdf 文件中提取文本,以便将其自动化。
例如,使用 PyPDF2 时,它适用于我的简历,但不适用于我的工作文档。问题是,文本是这样的:“Helloworldthisisthetext”。然后我尝试使用.join(“”),但这不起作用。
我读到这是 PyPDF2 的一个已知问题 - 它似乎取决于 pdf 的构建方式。
有谁知道另一种方法如何从中提取文本,然后我可以将其用于进一步的步骤?
先感谢您
解决方案
我在工作中有类似的要求,为此我使用了 PyMuPDF。他们还有一系列涵盖文本提取典型场景的食谱。
推荐阅读
- reactjs - 如何获取一个对象(通过 POST 在 React 中)保存在正确的外键(Rails 后端)下?
- pyspark - 在 pyspark 中对 csv 文件中的语言和特殊字符进行编码,还需要帮助处理空数据
- sql - INSERT OVERWRITE 不删除项目,不工作
- android - 在 ViewModel 中使用的 helper 类中获取 viewModelScope
- python - 尝试打开 os.walk 返回的文件名时“没有这样的文件或目录”
- python - 我在 Windows 上使用 apache 的 wsgi 配置有什么问题?
- design-patterns - 返回 *all* 某些内容无效的原因的模式
- python - Pytorch argmax 跨多个维度
- c - C 中的 Else If 语句未正确执行
- java - 为什么禁用 kubernetes configmap propertysource 不起作用?