首页 > 解决方案 > 使用pymupdf python从pdf中提取文本和图像

问题描述

我正在尝试使用 python 从 pdf 中抓取文本和图像。但似乎没有正确提取文本和图像,即没有保持图像的正确顺序。PFA 我要抓取的 pdf 图像。在此处输入图像描述

代码的输出是。

在此处输入图像描述

正如您在输出中看到的那样,图像标签被错误地放置在“对于后者,需要医疗的假设”之后。然而,它实际上应该放在“1 型糖尿病模拟受试者”之后

请帮助我,因为我坚持这一点并且找不到解决方案。我的代码是:

doc = fitz.open(file_path)
for i in range(len(doc)):
 page1 = doc.loadPage(i)
 page1text = page1.getText("xhtml")
 page1text = page1text.strip()
 page1text = page1text.strip('\n')
 page1text=  re.sub('\s+', ' ', page1text)
 print(page1text)

标签: pythonweb-scrapingpdf-scrapingpymupdf

解决方案


推荐阅读