首页 > 解决方案 > 如何使用 PyPDF2 或任何其他包从旋转的 PDF 中提取文本而不将其从 Web 响应对象中保存?

问题描述

我想从此链接中提取文本。在这里,pdf被旋转,当我尝试旋转它并提取时,我得到一个空白响应或空字符串,即使我只是尝试提取文本,我也会得到空白响应/空字符串。请建议可以做些什么,以便我可以在不将文件保存在我的系统上的情况下提取文本。

import requests
import PyPDF2
from io import BytesIO

pdf_resp = requests.Session().get("https://www.mbmc.gov.in/master_c/download_file/63161")
pdf_file_obj = BytesIO(pdf_resp.content)
pdf_table_text = PyPDF2.PdfFileReader(pdf_file_obj).getPage(0).rotateClockwise(90).extractText()

标签: python-3.xweb-scrapingpypdf2pdftotextpdf-scraping

解决方案


推荐阅读