首页 > 解决方案 > 网络抓取标签未显示在请求响应中

问题描述

我正在尝试从此url收集数据,但无论我尝试使用什么都不起作用。

我想要收集的标签(如下图)从未出现在我的请求响应中。

在此处输入图像描述

我的猜测是,这可能是一个动态的 java 脚本网页。我如何收集这些信息?

我的尝试

from requests_html import HTMLSession

session = HTMLSession()

url = "https://esaj.tjsp.jus.br/cpopg/show.do?conversationId=&cbPesquisa=NUMPROC&numeroDigitoAnoUnificado=1001035-70.2017&foroNumeroUnificado=0102&dadosConsulta.valorConsultaNuUnificado=10010357020178260102&dadosConsulta.valorConsultaNuUnificado=UNIFICADO&dadosConsulta.valorConsulta=&dadosConsulta.tipoNuProcesso=UNIFICADO&uuidCaptcha=sajcaptcha_f1d8c2dfcba844d198c779150c7b6c21&g-recaptcha-response=03AGdBq25WlWBW06ytO1_Mbv7LKUUc1nPLhJNQUYUUcOKMo2nlflJR9S6X3QHt4bHFKaXv5vs96NxdaUsHHz7Y6TrsmqnsylpYChzwISKtoFYRFCklaiNEjjj1A7CmToCplvsZk8vopvoUOOq15dIcEL4jCadJeZX1pKV9bj-rL00-LmaYwVFnJHdEryYvWWAFWKYC1BWQkCQ0fcLtQg5dnCKGVuzZGesCgghiQLIwi0ht0gau92vrJzPbUH6pPYDGEctfujczdJlqoIGg9Jhody2yfLVEYZhp8rQrkmzynqDR74t3KP-komFKWVcjqoSH0Pa_NpFOlgUjgYGTO9oqpaVK7mQJJJCqGD-aWRMH4fXHWd8topqZ73NyaFwYXK3ybepPH2YU9SY4d1RMaV9_ZGke2v0P7t7mqvxI6wPtx-NGB3omcIH5XPtS7M-qJw92eyS0Q_dxJN-nxrRkuLVDMqQoJ2XlB8Nckg&processo.codigo=2U0000FDR0000"

r = session.get(url)

r.html.render(sleep=1)

spans = r.html.xpath('//*[@id="numeroProcesso"]')

print(spans)

结果:

>>> []

这段小代码总是显示一个空列表。这是为什么?我已经用r.html.render()函数渲染了网页......

所需的许多其他信息,例如下面的那些名称,始终遵循相同的模式,在请求响应时找不到它们的标签。

标签: pythonhtmlweb-scrapingpython-requests-html

解决方案


推荐阅读