python - 关于在pdf文档python中突出显示文本的问题
问题描述
我正在尝试编写一个 python 脚本,该脚本将自动在 pdf 中查找文本并根据
我正在使用 python 的 pymupdf 模块。它适用于一些pdf。但是,对于目标 pdf(组件和属性表的绘图),它会将输出保存为没有数据和一些空白突出显示的空白 pdf。
import fitz
doc=fitz.open("c5.pdf")
page = doc[0]
text = "a"
text_instances = page.searchFor(text)
for inst in text_instances:
highlight = page.addHighlightAnnot(inst)
doc.save("out.pdf", garbage=4, deflate=True, clean=True)
解决方案
您的 PDF 可能包含看起来像文本但又是其他内容的元素。可能它们只是某种类型的图形或图像。在那种情况下,文本搜索当然找不到任何东西。
请在我的 PyMuPDF 存储库上提交一个问题,并附上一些示例 PDF,以便我对此进行调查。
推荐阅读
- c++ - 在 C++ 中类似 Python 的动态参数解包?
- python - 带有条件的 Python 控制“with”上下文管理器
- angular - 使用 React 或 Angular 改造现有的 JSF 前端
- git - 在 Bitbucket 中创建存储库
- swift - 如何使用 Swift 从嵌套结构中读取本地数据
- reactjs - 如何为 ReactJS 创建一个 dockerized 开发环境
- python - 使用行值来创建另一列
- python - 具有“loc”和“to_frame”的不同格式的数据帧
- java - 如何在 java 中映射 void*
- react-native - 将 twilio-chat 与 react-native 一起使用