首页 > 解决方案 > 从python中的pdf文件对象中提取文本

问题描述

例如,我们可以从请求中收集的 pdf 文件对象中提取文本吗

f = request.FILES.get('file', None)

因此,f当我们从文本文件对象中获取文本内容时,我们可以从中提取文档的文本。

标签: pythonfilepdf

解决方案


尝试使用这个名为 textract 的库

http://textract.readthedocs.io/en/latest/

它支持很多格式,包括PDF

import textract
text = textract.process("path/to/file.extension")

推荐阅读