python - 网络抓取标签未显示在请求响应中
问题描述
我正在尝试从此url收集数据,但无论我尝试使用什么都不起作用。
我想要收集的标签(如下图)从未出现在我的请求响应中。
我的猜测是,这可能是一个动态的 java 脚本网页。我如何收集这些信息?
我的尝试
from requests_html import HTMLSession
session = HTMLSession()
url = "https://esaj.tjsp.jus.br/cpopg/show.do?conversationId=&cbPesquisa=NUMPROC&numeroDigitoAnoUnificado=1001035-70.2017&foroNumeroUnificado=0102&dadosConsulta.valorConsultaNuUnificado=10010357020178260102&dadosConsulta.valorConsultaNuUnificado=UNIFICADO&dadosConsulta.valorConsulta=&dadosConsulta.tipoNuProcesso=UNIFICADO&uuidCaptcha=sajcaptcha_f1d8c2dfcba844d198c779150c7b6c21&g-recaptcha-response=03AGdBq25WlWBW06ytO1_Mbv7LKUUc1nPLhJNQUYUUcOKMo2nlflJR9S6X3QHt4bHFKaXv5vs96NxdaUsHHz7Y6TrsmqnsylpYChzwISKtoFYRFCklaiNEjjj1A7CmToCplvsZk8vopvoUOOq15dIcEL4jCadJeZX1pKV9bj-rL00-LmaYwVFnJHdEryYvWWAFWKYC1BWQkCQ0fcLtQg5dnCKGVuzZGesCgghiQLIwi0ht0gau92vrJzPbUH6pPYDGEctfujczdJlqoIGg9Jhody2yfLVEYZhp8rQrkmzynqDR74t3KP-komFKWVcjqoSH0Pa_NpFOlgUjgYGTO9oqpaVK7mQJJJCqGD-aWRMH4fXHWd8topqZ73NyaFwYXK3ybepPH2YU9SY4d1RMaV9_ZGke2v0P7t7mqvxI6wPtx-NGB3omcIH5XPtS7M-qJw92eyS0Q_dxJN-nxrRkuLVDMqQoJ2XlB8Nckg&processo.codigo=2U0000FDR0000"
r = session.get(url)
r.html.render(sleep=1)
spans = r.html.xpath('//*[@id="numeroProcesso"]')
print(spans)
结果:
>>> []
这段小代码总是显示一个空列表。这是为什么?我已经用r.html.render()
函数渲染了网页......
所需的许多其他信息,例如下面的那些名称,始终遵循相同的模式,在请求响应时找不到它们的标签。
解决方案
推荐阅读
- c# - 非托管导出未显示在 DLL 中
- pytorch - 火炬张量的 sum 和 torch.sum 有什么区别?
- ruby-on-rails - 通过 Ruby Web 应用程序编写 VBS 脚本——多线程问题
- linux-device-driver - 可变大小的 i2c 读取 Raspberry
- c# - 一行或一列中没有 3 个相同的随机 2D 数组
- c# - 如何将条件等于两个字符串
- python - 随机 url 生成器,但确保结果是唯一的
- python - 熊猫将(不等长度)列表的列拆分为多列
- python - Youtube V3 API 不对视频进行排序
- azure-devops - 将管道变量从 Designer 传递到 YAML 作业模板