python - 按python类型从pdf中提取文本
问题描述
大家好,我有这个 pdf 文件样本,我有 30 多个文件,每个文件包含 10 页。如您所见,每个段落由三种类型的文本字体和颜色组成,我想将 pdf 文件转换为 cvs 文件或 xls 文件,其中每种类型在单独的 coulmn.ALso 中,我想排除黄色突出显示的文本。类似的东西:
我python libries
应该使用什么?任何方向或建议都会有所帮助谢谢
解决方案
那里有几个图书馆。我之前曾与https://pypi.org/project/pdfminer/合作过。它可能适用于您的用例。
pdf2txt.py my_text.pdf
推荐阅读
- reactjs - reactjs - 如何在同一层次结构的屏幕之间传递对象
- python - 通过 cmake 从 C++ 扩展构建 Python 子模块
- linux - 通过 cron 文件从 FTP 服务器访问和传输文件到我的 ftp 服务器
- android - 从资产文件夹打开后,Android PDF 立即关闭 - 意图
- github - 对 github repo 的流量有些困惑?
- javascript - 如何使用 async/await 从 sqlite db.each 获取数据
- hugo - Hugo 错过了生成图像和其他一些文件夹
- bytecode - 关于如何正确有效地使用 ByteBuddy 的指南
- flutter - 更改选项卡时如何更改 TextField 中的键盘类型?
- flutter - 在构造函数中使用方法来初始化参数?