python-3.x - 网页抓取:迭代网站的页面,而无需使用 Python 和请求编辑 url
问题描述
我正在从这个汽车经销商网站提取数据,但我找不到迭代页面的方法。我通常通过更改 url 中存在的一些索引来进行迭代,但是在该站点的 url 中没有任何页面的索引
下面是一个示例代码,当我可以通过编辑 url 来迭代页面时,我通常会如何做:
import requests as req
url = "https://www.seminovosunidas.com.br/veiculos/page:{}?utm_source=afilio&utm_medium=display&utm_campaign=maio&utm_content=ron_ambos&utm_term=120x600_promocaomaio_performance_-_-"
indice_pagina = 1
dados = {}
r = req.get(url.format(indice_pagina))
print(r.text)
解决方案
我认为你是新来的刮。每个 div 中都有链接,您可以在此路径中找到它并迭代更多页面
#resultadoPesquisa > div:nth-child(1) > a
并获取具有类似链接的 herf 属性
/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d
您可以将其附加到 url 以请求产品
所以这将是这样的
complete_url = 'https://seminovos.localiza.com' + '/Paginas/detalhes-do-carro.aspx?o=fmKOUbLvWxA%3d'
如果您有任何问题,请发表评论