首页 > 解决方案 > extractText() 函数不返回文本

问题描述

pdfFileObject = open('MDD.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObject)
count = pdfReader.numPages
for i in range(count):
    page = pdfReader.getPage(i)
    print(page.extractText()

以上是我的代码,当我运行脚本时,它只输出一堆数字和数字,而不是文件的文本。有人可以帮我吗?

标签: pythonpython-3.xpypdf2

解决方案


此功能不适用于所有 PDF 文件。这在文档中进行了解释:

这适用于某些 PDF 文件,但对其他文件效果不佳,具体取决于所使用的生成器。这将在未来进行完善。不要依赖从这个函数出来的文本的顺序,因为如果这个函数变得更复杂,它会改变。:return: 一个 unicode 字符串对象。

在这个文件上试试你的代码。我确定它应该可以工作,所以问题似乎不在您的代码中。

如果您确实需要解析以与原始 MDD.pdf 相同的方式创建的文件,则必须选择另一个库。


推荐阅读