html - 使用 Rvest 从网站中抓取 Web 链接
问题描述
我是 r 和 Webscraping 的新手。我目前正在抓取一个房地产网站(https://www.immobilienscout24.de/Suche/ST/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search),但我无法抓取特定链接优惠。
使用下面的代码时,我得到了网站上的每个链接,我不太确定如何过滤它,使其只抓取 20 个房地产报价的链接。也许你可以帮助我。
到目前为止,查看源代码/检查元素对我没有帮助......
url <- immo_webp %>%
html_nodes("a") %>%
html_attr("href")
解决方案
您可以定位article
标签,然后data-obid
通过与基本字符串连接来从属性构造 url
library(rvest)
library(magrittr)
base = 'https://www.immobilienscout24.de/expose/'
urls <- lapply(read_html("https://www.immobilienscout24.de/Suche/S-T/Wohnung-Miete/Rheinland-Pfalz/Koblenz?enteredFrom=one_step_search")%>%
html_nodes('article')%>%
html_attr('data-obid'), function (url){paste0(base, url)})
print(urls)
推荐阅读
- sql - 检索所有具有最近更新的用户
- python - 如何比较每列文本值?
- javascript - Sweetalert 不起作用,但是当我使用 alert 进行测试时,它确实起作用
- c# - LINQ / EF Core 不能在查询中使用 string.Contains
- excel - VBA Excel 如果列中出现某个值,请将其复制到同一行中的另一列
- postgresql - 急切加载:如何包含两个外键
- .net - Effort EF6 更改应用程序配置连接字符串以进行测试
- kubernetes - kubernetes : 是否可以在 V1.10 集群上安装 nginx 入口控制器
- html - 全角响应式两列布局图像和文本
- django - django模型表单数据没有保存到数据库