首页 > 解决方案 > 如何使用python从动态轮播中抓取图像

问题描述

我正在尝试构建一个图像抓取工具来提取当前处于动态图像轮播中的丰田汽车的 PNG。我的最终目标是开发一个脚本,该脚本将获取丰田汽车的 URL,例如 Mirai: https ://www.toyota.com/configurator/build/step/color/year/2021/series/mirai/model/3002 /exteriorcolor/0090/interiorcolor/EA20

并为您在网站上看到的所有不同图像角度/颜色拉取 src 属性。

首先我尝试使用 python 和 BeautifulSoup:

from bs4 import BeautifulSoup
from urllib.request import urlopen
import re

html_page = urlopen("https://www.toyota.com/configurator/build/step/color/year/2021/series/mirai/model/3002/exteriorcolor/0090/interiorcolor/EA20").read()
soup = BeautifulSoup(html_page)
images = []
for img in soup.findAll('img'):
    images.append(img.get('src'))

print(images)

这可以提取 src 属性,但是页面依赖于用户交互来生成图像,它返回的只是加载图像的 src 属性:

['/tcom-apps/build-and-price/img/static/loader.gif']

我尝试了其他几种方法,包括定位幻灯片 ID。我知道图像都保存在同一个目录中,并且我考虑过以该目录为目标,但我再次遇到了没有用户交互就不会填充图像的问题。这甚至可能还是我应该从源代码中复制并粘贴它们?任何人都可以提供的任何帮助表示赞赏!

ps:不确定这是否重要,但我正在使用它为我的个人作品集开发一个网站克隆项目。我只需要原始图像,我喜欢丰田!

标签: pythonbeautifulsoup

解决方案


推荐阅读