python - pdftotext 返回空白,但 pdf 有多行多页,为什么?
问题描述
import pdftotext
# Load your PDF
with open("docs/doc1.pdf", "rb") as f:
docs = pdftotext.PDF(f)
print(docs[0])
此代码将此特定文件打印为空白,如果我更改文件它会给我结果。我什至尝试了apache Tika。Tika 也返回 None,如何解决这个问题?
我想在这里提到的一件事是pdf由多个图像组成
这是文件 这是示例 pdf,而不是原始文件。但我想从 pdf 中提取类似这样的文本
解决方案
推荐阅读
- angular - primeng p-multiSelect 未在组件中下拉
- powerbi - 如何找到连接到两个不同日期切片器的两个度量的比率
- python - 无法使用 `pd.read_csv` 读取 csv 文件
- javascript - 如何在我们的嵌入网站上添加 instagram 的部分标题
- php - 我们在 PHP 数组中称这个符号 => 是什么?
- php - 改变一个数字对应于另一个数字的改变
- php - 更改配置文件中的默认目录后,Xampp 找不到文件
- r - 如何在一个列上加入两个表并在另一列上分组
- amazon-web-services - AWS:Terraform 文件上传/执行命令
- react-native - 无法在本机中加载图像