首页 > 解决方案 > 是否有从外部来源收集图像文件的快速方法(Chrome 开发人员选项卡)

问题描述

假设我访问了一个名为abc.xyz的网站。

当我访问该网站时,我看到该网站运行一个 javascript 脚本来创建一本交互式书籍。显然,这本书必须有每一页的图像文件。

现在假设我转到开发人员工具选项卡并转到源选项卡以查找图像 - 果然,我找到了它们。但是,图像来自名为xyz.abc的文件夹和域,在访问时会显示403错误。

有没有比访问每个图像的链接并单独保存每个图像更快的方法来收集这些图像文件(请记住图像本身不受访问限制)?

真实世界示例: 显示源选项卡下的文件的图像。

在上图中,您可以看到一个文件夹中有多个图像文件(实际上是数百个)。图像所在的域和文件夹在访问时显示 403 错误,但图像本身不受限制。要下载图像,您可以单独获取每个图像的链接并使用“将图像另存为”。但是,这对于数百张图像来说会很耗时 - 有没有更快的方法来下载所有图像?

编辑:此外,是否有一种方法可以通过 PDF 文件上预先存在的页码快速订购 PDF 图像。

标签: downloadgoogle-chrome-devtools

解决方案


要获取网页的图像,您可以使用 python 脚本来获取所有图像src,以后您可以对其执行任何操作,例如将其复制到您的系统或您的网站。

我用过BeautifulSoup网页抓取

from bs4 import BeautifulSoup
import requests

page = requests.get("https://stackoverflow.com/questions/63939080/is-there-a-fast-way-of-gathering-image-files-from-external-sources-chrome-devel")
soup = BeautifulSoup(page.content, 'html.parser')
#print(soup.prettify())
for element in soup.find_all("img"):
    try:
        print(element['src'])
    except Exception as e:
        pass

推荐阅读