python - 在python中读取类似结构的pdf表格(不是精确的表格)并将其提取为任何文件格式
问题描述
我有一个 pdf 文件,其中中间的页面充满了测量值。I 看起来像一张桌子,但与线条不完全对齐。我想以与查看 csv 或 Excel 文件相同的方式提取数据。
pdf文件数据样本:
column1 column2 column3 column4
1 0.05 2.01 3.09
2 5.05 4.01 6.03
3 7.01 8.02 1.00
pdf数据中没有对齐。就像它不像表中那样分开使用符号线。那么哪个模块更适合将其导出为 Excel 或 csv?
解决方案
您可以使用 textract 来实现这一点,但它也取决于 file.
它支持多种类型的文件,包括 PDF
import textract
text = textract.process("path/to/file.pdf")
推荐阅读
- java - 当我第一次检索必须在 @ManyToMany 关系中使用的对象时,为什么会获得这个“传递给持久化的分离实体”?
- regex - 如何验证用户输入中的 Perl 正则表达式?
- git - 推/拉时 Visual Studio 代码“源代码管理”速度非常慢 [Ubuntu 20.04.3 LTS]
- c++ - 从可变参数继承时为什么需要转发构造函数参数?
- amazon-web-services - 我可以从不同的 aws 区域解密来自不同帐户的 KMS 密钥吗?
- pandas - SQLAlchemy的引用机制——SQL注入漏洞,找不到具体的代码引用
- java - 如何在 VSCode(独立)中将文本文件添加到 JUnit 5 类路径?
- swift - 解决使用 TupleView 的语法问题,其中 Content == TupleView<(Content1)> 或 Content == Content1
- vba - 我们如何在 Word 文档的起点和终点之间进行复制?
- html - 来自桌面客户端的 SAML 身份验证