首页 > 解决方案 > 如何从 PDF 文件中提取文本(没有标题)?

问题描述

我正在尝试使用 Python 从 PDF 文件中提取文本,我的主要目标是在没有标题的主文件中提取文本。

这是示例图像,标题是指红色矩形: 在此处输入图像描述

这是 PDF 文件链接:https ://mega.nz/file/d0YkhB5Y#j7eA0EBxg70Yu36PjGocNjouP_xQFoRRAN7VfyDeClo

目前将 PDF 文件中的文本提取为字符串的最佳和最简单的方法是什么?我曾尝试使用 pdfplumber,但在阅读了它的用户指南后,我仍然不知道如何使用它。

谢谢你的帮助!!

标签: pythonpython-3.xpdf

解决方案


pdfplumber的repo 在这里。除了表格提取之外,它还是一个提取文本、字符、矩形和线条的好包。一个简单的例子是:

import pdfplumber

def extract_pdf(pdf_path):
    all_text = ''
    with pdfplumber.open(pdf_path) as pdf:
        for pdf_page in pdf.pages:
            single_page_text = pdf_page.extract_text()
            all_text = all_text + '\n' + single_page_text
    return all_text

pdf_path = 'test.pdf'
text = extract_pdf(pdf_path)
print(text)

推荐阅读