python - 使用 requests_html 进行网页抓取
问题描述
所以我正在尝试构建一个刮板来刮掉网站上的所有汽车广告。我已经成功地创建了一个 csv,其中包含每个广告的 url,我现在正在尝试抓取每辆车的详细信息。我最初使用的是 urllib 和 bs4,但我认为由于使用 javascript 填充汽车详细信息,bs4 无法解析它们。我曾尝试使用 requests_html,但它似乎没有找到我要求的元素。这是我要抓取的示例页面。我正在尝试获取诸如品牌、型号、里程和发动机尺寸等信息。这是我到目前为止尝试过的代码。
from requests_html import HTMLSession
from bs4 import BeautifulSoup as soup
session = HTMLSession()
page = session.get('https://www.donedeal.ie/cars-for-sale/131-citroen-c4-picasso-platinum/28022543')
container = page.html.find('.cad-info-container', first=False)
解决方案
推荐阅读
- c++ - 如何在模板中转发通用结构的初始化参数?
- c - 根据 C 标准,int 的大小是多少?
- c++ - Why is my struct constructor, which contains other structs, not working?
- python - 关于 python 上 sort() 方法的一些问题
- javascript - mongoose find() 方法不是服务调用中的函数错误
- list - 在 Flutter 中调用函数时遇到空引用问题
- mysql - MYSQL 将毫秒转换为仅 MM:SS
- c# - 手动调整位图大小
- python - 无法加载 CSS Django IIS
- java - java.lang.NoClassDefFoundError:Tomcat 10 中的 jakarta/servlet/jsp/jstl/core/LoopTag