html - R 程序可能由于 Rdata 文件或 R 包而停止工作
问题描述
我构建了一个运行良好的网络爬虫,直到它随机停止工作。我以为是因为我的 Rdata 文件,但我删除了我找到的那些。我现在在我的第一个函数中遇到错误,因为我无法再正确访问 URL。
#Getting the number of Page
getPageNumber <- function(URL) {
parsedDocument <- read_html(URL)
results_per_page <- length(parsedDocument %>% html_nodes(".sr-list"))
total_results <- parsedDocument %>%
toString() %>%
str_match(., 'num_results":"(.*?)"') %>%
.[,2] %>%
as.integer()
browser()
pageNumber <- tryCatch(ceiling(total_results / results_per_page), error = function(e) {1})
return(pageNumber)
}
getPageNumber("https://academic.oup.com/dnaresearch/search-results?rg_IssuePublicationDate=01%2F01%2F2010%20TO%2012%2F31%2F2010&fl_SiteID=5275&page=")
输出应该是getPageNumber("academic.oup.com/dnaresearch/…) [1] 9
相反,我得到NA
解决方案
推荐阅读
- authorization - Cakephp 4 将 2 个现有实体与所属关联
- python - 简单的重复水平系统
- javascript - 如何让我的星级评分累积和平均以生成整体产品评论?
- python - 带有来自 PyTesseract 的字符串的 IF 语句
- c++ - 在 boost intrusive 中使用存储桶的向量
- python - 无法在 ipyvuetify 的 Alert 对象中写入空格
- java - Java Discord JDA 移动用户
- azure-data-factory - 默认或阻止 ADF 管道活动参数
- java - 没有连接到 Tomcat 服务器
- c++ - 有没有办法使用 clang-format 来做“只缩进”?