首页 > 解决方案 > pdftotext 返回空白,但 pdf 有多行多页,为什么?

问题描述

import pdftotext

# Load your PDF
with open("docs/doc1.pdf", "rb") as f:
    docs = pdftotext.PDF(f)

print(docs[0])

此代码将此特定文件打印为空白,如果我更改文件它会给我结果。我什至尝试了apache Tika。Tika 也返回 None,如何解决这个问题?

我想在这里提到的一件事是pdf由多个图像组成

这是文件 这是示例 pdf,而不是原始文件。但我想从 pdf 中提取类似这样的文本

标签: pythonocrapache-tikapdftotext

解决方案


推荐阅读