python - 如何从 PDF 文件中提取文本(没有标题)?
问题描述
我正在尝试使用 Python 从 PDF 文件中提取文本,我的主要目标是在没有标题的主文件中提取文本。
这是示例图像,标题是指红色矩形: 在此处输入图像描述
这是 PDF 文件链接:https ://mega.nz/file/d0YkhB5Y#j7eA0EBxg70Yu36PjGocNjouP_xQFoRRAN7VfyDeClo
目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么?我曾尝试使用 pdfplumber,但在阅读了它的用户指南后,我仍然不知道如何使用它。
谢谢你的帮助!!
解决方案
pdfplumber的repo 在这里。除了表格提取之外,它还是一个提取文本、字符、矩形和线条的好包。一个简单的例子是:
import pdfplumber
def extract_pdf(pdf_path):
all_text = ''
with pdfplumber.open(pdf_path) as pdf:
for pdf_page in pdf.pages:
single_page_text = pdf_page.extract_text()
all_text = all_text + '\n' + single_page_text
return all_text
pdf_path = 'test.pdf'
text = extract_pdf(pdf_path)
print(text)
推荐阅读
- python - 在目录级别运行时,Python 3 单元测试失败
- c++ - 为什么文字运算符不能正常模板化?
- sql - 联合后sql命令的标识符顺序无效
- lisp - 如何访问 Lisp 符号函数单元格
- angular - tree-shakable 服务如何避免循环依赖,而 pre-Angular 6 DI 没有?
- server - 为什么我的服务器似乎找不到纹理?
- python - 矩阵或嵌套列表的部分列和
- git - 更新被拒绝,因为您当前分支的尖端落后 - 但为什么呢?
- python - Websockets 库返回错误 1011,但我使用的版本没有该错误的文档
- azure - Azure ASE AutoScale 很慢