python - PyPDF2循环虽然PDF urls文本文件失败
问题描述
我在遍历 txt 文件中的 url 以获取 pdf 的标题时遇到问题。当只有一个 URL 时,代码运行没有问题,但当有更多 URL 时,它会引发以下错误:“ raise utils.PdfReadError("Could not read malformed PDF file") PyPDF2.utils.PdfReadError: Could not read malformed PDF文件 ”。
至于文本文件,每行一个 URL,没有逗号,没有奇怪的格式。
知道为什么会发生这种情况吗?(抱歉,如果我的问题格式不正确,实际上是我的第一个问题):)
import io
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileReader
def extract_info_from_pdf_url():
with open('pdfs.txt') as urls:
for url in urls:
r = requests.get(url)
f = io.BytesIO(r.content)
reader = PdfFileReader(f)
title = reader.getDocumentInfo().title
print(url)
print(title)
extract_info_from_pdf_url()
解决方案
推荐阅读
- docker - 程序集引用更改后,如何保持 Azure Functions v2 运行时在容器中运行?
- reactjs - 如何在与打字稿反应时为子类声明不同的状态和道具
- java - 在java中,g.drawString在使用Container时不会在applet中打印
- c# - 服务总线主题插入了相同 MessageId 的重复消息记录
- python - 使用 Holoviews 的 TreeMaps
- ios - 如何在不点击横幅或显示通知之前访问推送通知响应?
- powershell - 我有 2 个关于 powershell 和 IIS 的问题
- dynamics-crm - 如何在 Dynamic CRM365 视图中访问我的网格
- javascript - ScrollView 中的自动滚动 react-native
- graph - 图论(图可以划分为两棵树时的顶点度)