python - 从python中的pdf文件对象中提取文本
问题描述
例如,我们可以从请求中收集的 pdf 文件对象中提取文本吗
f = request.FILES.get('file', None)
因此,f
当我们从文本文件对象中获取文本内容时,我们可以从中提取文档的文本。
解决方案
尝试使用这个名为 textract 的库
http://textract.readthedocs.io/en/latest/
它支持很多格式,包括PDF
import textract
text = textract.process("path/to/file.extension")
推荐阅读
- javascript - 自动完成 JQuery 小部件在服务器上不起作用
- c++ - 具有完美转发的可变参数 lambda
- python - Python 请求:获取请求文件 (mp4) 的大小(以字节为单位)
- javascript - 缩放或标记位置更改后 iphone(safari 和 chrome)上的 agm-map angular6 渲染问题
- php - 删除电报上带有特定单词的消息
- python - 使用 Python 和 Pandas 将多个 CSV Web 源合二为一
- django - 简单 JWT 向令牌中的有效负载数据添加额外字段
- reactjs - 如何减少 React Native 中的代码?
- javascript - 无法在节点中使用 twitter api 获得相关的推文回复以创建线程
- c - C中的二进制搜索代码无法正常工作