首页 > 解决方案 > 按python类型从pdf中提取文本

问题描述

在此处输入图像描述

大家好,我有这个 pdf 文件样本,我有 30 多个文件,每个文件包含 10 页。如您所见,每个段落由三种类型的文本字体和颜色组成,我想将 pdf 文件转换为 cvs 文件或 xls 文件,其中每种类型在单独的 coulmn.ALso 中,我想排除黄色突出显示的文本。类似的东西: 在此处输入图像描述

python libries应该使用什么?任何方向或建议都会有所帮助谢谢

标签: pythonpdftext

解决方案


那里有几个图书馆。我之前曾与https://pypi.org/project/pdfminer/合作过。它可能适用于您的用例。

pdf2txt.py my_text.pdf

推荐阅读