首页 > 解决方案 > 在python中读取类似结构的pdf表格(不是精确的表格)并将其提取为任何文件格式

问题描述

我有一个 pdf 文件,其中中间的页面充满了测量值。I 看起来像一张桌子,但与线条不完全对齐。我想以与查看 csv 或 Excel 文件相同的方式提取数据。

pdf文件数据样本:

column1 column2 column3 column4
1       0.05    2.01    3.09   
2       5.05    4.01    6.03
3       7.01    8.02    1.00

pdf数据中没有对齐。就像它不像表中那样分开使用符号线。那么哪个模块更适合将其导出为 Excel 或 csv?

标签: pythonpdfreader

解决方案


您可以使用 textract 来实现这一点,但它也取决于 file.

  1. http://textract.readthedocs.io/en/latest/
  2. https://github.com/deanmalmgren/textract

它支持多种类型的文件,包括 PDF

import textract
text = textract.process("path/to/file.pdf")

推荐阅读