首页 > 解决方案 > PyPDF2循环虽然PDF urls文本文件失败

问题描述

我在遍历 txt 文件中的 url 以获取 pdf 的标题时遇到问题。当只有一个 URL 时,代码运行没有问题,但当有更多 URL 时,它会引发以下错误:“ raise utils.PdfReadError("Could not read malformed PDF file") PyPDF2.utils.PdfReadError: Could not read malformed PDF文件 ”。

至于文本文件,每行一个 URL,没有逗号,没有奇怪的格式。

知道为什么会发生这种情况吗?(抱歉,如果我的问题格式不正确,实际上是我的第一个问题):)

import io
import requests
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileReader

def extract_info_from_pdf_url():
    
    with open('pdfs.txt') as urls:
        for url in urls:
            r = requests.get(url)
            f = io.BytesIO(r.content)
            reader = PdfFileReader(f)
            title =  reader.getDocumentInfo().title
            print(url)
            print(title)


extract_info_from_pdf_url()


标签: pythonpdfweb-scrapingpypdf2

解决方案


推荐阅读