首页 > 解决方案 > 使用 requests_html 进行网页抓取

问题描述

所以我正在尝试构建一个刮板来刮掉网站上的所有汽车广告。我已经成功地创建了一个 csv,其中包含每个广告的 url,我现在正在尝试抓取每辆车的详细信息。我最初使用的是 urllib 和 bs4,但我认为由于使用 javascript 填充汽车详细信息,bs4 无法解析它们。我曾尝试使用 requests_html,但它似乎没有找到我要求的元素。是我要抓取的示例页面。我正在尝试获取诸如品牌、型号、里程和发动机尺寸等信息。这是我到目前为止尝试过的代码。

from requests_html import HTMLSession
from bs4 import BeautifulSoup as soup
session = HTMLSession()

page = session.get('https://www.donedeal.ie/cars-for-sale/131-citroen-c4-picasso-platinum/28022543')

container = page.html.find('.cad-info-container', first=False)

标签: pythonscreen-scrapingpython-requests-html

解决方案


推荐阅读