python-3.x - 如何使用 PyPDF2 或任何其他包从旋转的 PDF 中提取文本而不将其从 Web 响应对象中保存?
问题描述
我想从此链接中提取文本。在这里,pdf被旋转,当我尝试旋转它并提取时,我得到一个空白响应或空字符串,即使我只是尝试提取文本,我也会得到空白响应/空字符串。请建议可以做些什么,以便我可以在不将文件保存在我的系统上的情况下提取文本。
import requests
import PyPDF2
from io import BytesIO
pdf_resp = requests.Session().get("https://www.mbmc.gov.in/master_c/download_file/63161")
pdf_file_obj = BytesIO(pdf_resp.content)
pdf_table_text = PyPDF2.PdfFileReader(pdf_file_obj).getPage(0).rotateClockwise(90).extractText()
解决方案
推荐阅读
- c - 当前目录是gcc的默认静态库、动态库、头文件搜索路径吗?
- c# - 在 CsvHelper 中使用应该引用的问题
- python-3.x - 请解释这里发生了什么: b=[x[:] for x in a]
- typescript - 如何制作具有全局可访问类型的 NPM 模块
- php - 在联系表单中添加附加字段
- javascript - 如何在某些条件下使用 forEach 循环打印 2 个数组?
- android - 矢量资产在我创建时给出错误“currentColor”
- ember.js - 如何在 Ember 模板中显示 API 响应?
- android - 如何处理播放订单
- node.js - 图片的特殊名称 Discord.js