python - 使用pymupdf python从pdf中提取文本和图像
问题描述
我正在尝试使用 python 从 pdf 中抓取文本和图像。但似乎没有正确提取文本和图像,即没有保持图像的正确顺序。PFA 我要抓取的 pdf 图像。
代码的输出是。
正如您在输出中看到的那样,图像标签被错误地放置在“对于后者,需要医疗的假设”之后。然而,它实际上应该放在“1 型糖尿病模拟受试者”之后
请帮助我,因为我坚持这一点并且找不到解决方案。我的代码是:
doc = fitz.open(file_path)
for i in range(len(doc)):
page1 = doc.loadPage(i)
page1text = page1.getText("xhtml")
page1text = page1text.strip()
page1text = page1text.strip('\n')
page1text= re.sub('\s+', ' ', page1text)
print(page1text)
解决方案
推荐阅读
- python - 如何使用 pyplot 绘制二进制值
- java - 如何在不更改先前字符串的情况下使用拆分字符串
- jquery - jquery find() 获取图标类
- java - Deduplication of repeated numbers in java
- kubernetes - CloudRun: Debug authentication error from curl
- python - Django how to call a method from a custom field given a model instance?
- python - Teradataml:如何在 teradataml 中运行查询时使用临时数据库?
- c++ - YouCompleteMe 仅在以命名空间为前缀时显示构造函数
- flutter - 根据 Flutter 中的内容调整 TextField 的大小
- html - 倾斜边缘 HTML/CSS