python - python pdfplumber:提取pdf并将数据分成2列
问题描述
我收集了 pdf 文件,这些文件以以下格式存储信息:
Line no 1 Line no. 11
Line no 2 Line no. 12
. .
. .
. .
Line no 10 Line no N
我正在使用pdfplumber库来提取 PDF 的文本内容,但不是先从第 1 行读取到第 10 行,然后再向第 11 行(依此类推)pdfplumber
读取第 1 行和第 11 行作为一行。考虑以下输出:
Line no 1 Line no. 11
Line no 2 Line no. 12
.
.
.
我的期望:
Line no. 1
Line no. 2
.
.
.
Line no. 11
.
.
.
这是我正在尝试阅读的 pdf的链接。
我尝试了带有表设置extract_table()
的库中的实用程序pdfplumber
,但它不起作用(参考答案https://stackoverflow.com/a/63133876/10011503)
我是否需要将某些特定的表设置作为参数传递给pdfplumber.open('path_to_pdf').pages[0].extract_table()
或者是否有任何其他实用程序和/或解决方法?
解决方案
我在上面的 PDF 部分中没有看到表格。我建议你使用
Page.extract_text(...)
而是打电话。
主文档中的自述文件在https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/san-jose-pd-firearm-report.ipynb有一个提取固定宽度文本的示例。类似于您的药物 PDF。
推荐阅读
- sql-server - WQL Select * from SQLService return 0 rows in WBEMTest 是什么意思?
- wordpress - 在 WordPress 插件中定义常量
- f# - 在没有编译器警告的情况下将 FsSql 计数结果转换为 Int32
- c - 在 C 中创建链表时程序崩溃
- c++ - 在设计方面:为向量类型的类成员重载插入运算符
- configuration - PAM EXAM 配置依赖需要较旧的 JAR(当较新的 JAR 可用时)
- vue.js - Vue cli 3 和 IE 11
- python-3.x - 从父类覆盖子类中的打印功能
- python - Excel 的 SUMIF 函数的 Python 列表或 NumPy 等价物是什么?
- r - 如何查看一个键是否随时间具有相同的值