r - 使用 Rvest 抓取网页
问题描述
我正在尝试从此网页加载一些数据。我想得到的信息部分是这个特定的部分:
我检查了页面,我看到了这个类&id:
所以我尝试这样:
url = url(paste0("http://www.aemet.es/es/eltiempo/prediccion/avisos?w=mna"))
aa2 = html_nodes(read_html(url),
'div#listado-avisos.contenedor-tabla')
aa3 = data.frame(texto = str_replace_all(html_text(aa2),"[\r\n\t]" , ""),
stringsAsFactors = FALSE)
我得到一个没有任何信息的数据框......我做错了什么?
提前致谢。
更新:感谢QHarr的可能答案:
library(httr)
library(rvest)
library(jsonlite)
url = "https://www.aemet.es/es/eltiempo/prediccion/avisos?w=mna"
download.file(url, destfile = "scrapedpage.html", quiet=TRUE)
date_value <- read_html("scrapedpage.html") %>% html_node('#fecha-seleccionada-origen') %>% html_attr('value')
url2 = paste0('https://www.aemet.es/es/api-eltiempo/resumen-avisos-geojson/PB/', date_value , '/D+1')
download.file(url2, destfile = "scrapedpage2.html", quiet=TRUE)
data <- httr::GET(url = "scrapedpage2.html", httr::add_headers(.headers=headers))
avisos = jsonlite::parse_json(read_html("scrapedpage2.html") %>%
html_node('p') %>% html_text())
解决方案
它是动态填充的。如果您不介意一些非常小的差异,您可以发出两个请求。一个到初始 url 以获取时间戳值;然后发出一个 API 请求(与页面一样),添加先前检索到的时间戳,以便获得正确时期的预测。解析响应以获取持有 avisos 的 json
library(httr)
library(rvest)
library(jsonlite)
headers = c('Referer' = 'https://www.aemet.es/es/eltiempo/prediccion/avisos?w=mna')
date_value <- read_html('https://www.aemet.es/es/eltiempo/prediccion/avisos?w=mna') %>% html_node('#fecha-seleccionada-origen') %>% html_attr('value')
data <- httr::GET(url = paste0('https://www.aemet.es/es/api-eltiempo/resumen-avisos-geojson/PB/', date_value , '/D+1'), httr::add_headers(.headers=headers))
avisos <- jsonlite::parse_json(read_html(data$content) %>% html_node('p') %>% html_text())$objects$Avisos$geometries
推荐阅读
- typescript-compiler-api - TypeScript Compiler API:如何使用已解析的类型参数获取类型?
- python - 从 Databricks 下载 Plotly HTML
- python - Python:带有画布的 Tkinter 中的滚动条
- c++ - 有订单保证的阻塞队列
- javascript - 刷新子php页面onchange
- azure-devops - 如何管理事件通知给单个成员而不是整个团队?
- blazor - 页面刷新或直接链接时最外层 CascadingValue 丢失
- vue.js - BootstrapVue 表的可排序标题单元格上的工具提示
- sql-server - SQL Server 中的“对于 Xml 路径”
- ios - App crashes on CGContext.drawPDFPage with a EXC_BAD_ACCESS