首页 > 解决方案 > 网页抓取:迭代网站的页面,而无需使用 Python 和请求编辑 url

问题描述

我正在从这个汽车经销商网站提取数据,但我找不到迭代页面的方法。我通常通过更改 url 中存在的一些索引来进行迭代,但是在该站点的 url 中没有任何页面的索引

下面是一个示例代码,当我可以通过编辑 url 来迭代页面时,我通常会如何做:

import requests as req

url = "https://www.seminovosunidas.com.br/veiculos/page:{}?utm_source=afilio&utm_medium=display&utm_campaign=maio&utm_content=ron_ambos&utm_term=120x600_promocaomaio_performance_-_-"
indice_pagina = 1
dados = {}
r = req.get(url.format(indice_pagina))
print(r.text)

标签: python-3.xweb-scrapingpython-requests

解决方案


我认为你是新来的刮。每个 div 中都有链接,您可以在此路径中找到它并迭代更多页面

#resultadoPesquisa > div:nth-child(1) > a

并获取具有类似链接的 herf 属性

/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d

您可以将其附加到 url 以请求产品

所以这将是这样的

complete_url = 'https://seminovos.localiza.com' + '/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d'

如果您有任何问题,请发表评论


推荐阅读