首页 > 解决方案 > 使用 Rvest 从网站中抓取 Web 链接

问题描述

我是 r 和 Webscraping 的新手。我目前正在抓取一个房地产网站(https://www.immobilienscout24.de/Suche/ST/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search),但我无法抓取特定链接优惠。

使用下面的代码时,我得到了网站上的每个链接,我不太确定如何过滤它,使其只抓取 20 个房地产报价的链接。也许你可以帮助我。

到目前为止,查看源代码/检查元素对我没有帮助......

url <- immo_webp %>%

  html_nodes("a") %>%

  html_attr("href")

标签: htmlrweb-scrapingrvest

解决方案


您可以定位article标签,然后data-obid通过与基本字符串连接来从属性构造 url

library(rvest)
library(magrittr)

base = 'https://www.immobilienscout24.de/expose/'

urls <- lapply(read_html("https://www.immobilienscout24.de/Suche/S-T/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search")%>%
       html_nodes('article')%>%
       html_attr('data-obid'), function (url){paste0(base, url)})
print(urls)

推荐阅读