python - 使用 PDF 阅读器获取文本?
问题描述
当我阅读 pdf 时,我怎样才能只得到这个简单的文本?
CLSAI10608
此代码始终以CLXXXXXXXX, LEN = 10
.
代码:
import PyPDF2
file = open('document.pdf', 'rb')
pdfreader = PyPDF2.PdfFileReader(file)
pageobj = pdfreader.getPage(0)
print(pageobj.extractText())
输出:
解决方案
所以我想出的正则表达式模式搜索以CL
8 个非空白字符开头的东西。regex101.com提供了方便的解释。
import re
string = r"""Detalle
Total
4040CL02
Correccion de BL
CLSAI10608LV-PASSERO V0008-MBL : ISGA0F000
47.020"""
match = re.search(r"[C][L]\S{8}", string)
if match:
code = match.group()
print(code)
输出:CLSAI10608
所以你想string
用pageobj.extractText()
.
推荐阅读
- spring - Mockito 测试归零
- sql-server - SQL Server 2017 中的 OUTPUT 参数的存储过程返回 null
- java - 如何在 JAVA 中以二维数组功能方式交换元素
- java - 带有 GraphQL 的 Spring Boot - 架构问题
- c - 用数组中的另一个数据序列替换一个数据序列
- javascript - 选项标签 - 在同一选项卡中打开页面
- postman - 如何从邮递员的响应标头中提取特定的字符串值?
- function - postgresql函数的输出问题
- java - 为什么我不能将带有图形的 jpanel 添加到另一个 jpanel?
- ios - 金属着色器:将颜色编码为 4 字节 INTEGER 而不是 8 Bytes FLOAT