首页 > 解决方案 > 我想从仅使用 python 的白色背景中提取文本

问题描述

我需要从只有白色背景的部分中提取文本。页面中还有一些其他部分的背景颜色不是白色。我不想要那个文本。这是一个示例图像:

样本

我附上 PDF 文件格式。

标签: pythontextbackground-color

解决方案


有很多方法可以做到这一点。可能更简单的方法之一是使用 pyPDF2。

$ pip install pyPDF2

在 python 中读取文件非常值得期待。

导入 PyPDF2

文件名 = "你的文件.pdf"

pdf = PyPDF2.PdfFileReader(打开(文件名,“rb”))

欲了解更多信息,文档位于网站上。( https://pypi.org/project/PyPDF2/ )


推荐阅读