r - R语言动态页面的可靠爬取方法
问题描述
我正在练习爬行作为一种爱好。虽然是从站点获取数据并正常运行,但有时找不到html_nodes,返回一个空值。
这是我的代码
url <- "url"
remDr <- RSelenium::remoteDriver(myinformation, browserName = "chrome")
remDr$open()
class <- NULL
pagUrl <- paste0(url, "man/")
for (i in 1:length(pagUrl)){
remDr$navigate(pagUrl[i])
class <- (remDr$getPageSource()[[1]] %>% read_html() %>% html_nodes('#categories') %>% html_nodes('._3kOKu') %>% html_text())[4]
}
代码的
remDr$getPageSource()[1] %>% read_html()
一部分总是有一个值。之后,找不到节点
%>% html_nodes ('#categories')
它并不总是这样,但它偶尔会发生。
你需要什么才能可靠地爬行?
RStudio
正在使用中RSelenium
和rvest
正在使用中。
我的猜测:网页是动态页面,所以我在想通过 JavaScript 配置 Dom 的速度很慢。
解决方案
推荐阅读
- spring - Spring Integration - RoundRobin 和 Failover 的两个永久连接
- machine-learning - Ktrain |我的模型在训练期间在训练/验证数据上表现良好,但在测试数据上没有
- python - 使用 python 在 selenium 中修改 div 的类
- amadeus - 如何创建带有额外行李/座位的订单
- entity-framework-core - Blazor 应用程序:登录后更改数据库连接
- sql - 显示具有不同值的行
- python - 是否可以在 Python 中迭代单个键值对以将值打印到列表中?
- reactjs - 将无状态父组件的点击发送到子组件
- vim - 如何将 colorcolumn / cc 设置为光标列?
- kotlin - 执行 org.jetbrains.kotlin.gradle.internal.KaptExecution Room 数据库时发生故障