首页 > 解决方案 > 控制台返回无 12 次。有 12 张图片。图像不能被刮掉吗?

问题描述

我正在尝试构建一个刮板以从该站点获取所有列表图像。我想出了如何将所有页面放入 .txt 文件中,但是在尝试使用此代码执行第一页时,控制台 12 次都没有吐出。不允许刮痧吗?

另外,在第一页被抓取后,我将如何从 .t​​xt 文件中提取 URL 并从列表中删除。

除了最后一个有 2 个之外,每个页面上有 6585 个 URL 和 12 个列表。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    soup.find_all("src")
    bingo = img.get("src")
    print(bingo)

标签: pythonweb-scrapingbeautifulsoup

解决方案


在遍历 div 元素时,您需要获取每个 div ('img') 中的图像,然后获取该图像元素的 'src'。

import requests
from bs4 import BeautifulSoup

url = "https://irockdecals.com/shop-decals/?sort=bestselling&page=1"

sourceCode = requests.get(url)

plainText = sourceCode.text

soup = BeautifulSoup(plainText, "html.parser")

irock = (soup.find_all('div', class_="card-img-container"))

for img in irock:
    image_element = img.find("img")
    bingo = image_element.get("src")
    print(bingo)

推荐阅读