首页 > 解决方案 > R 程序可能由于 Rdata 文件或 R 包而停止工作

问题描述

我构建了一个运行良好的网络爬虫,直到它随机停止工作。我以为是因为我的 Rdata 文件,但我删除了我找到的那些。我现在在我的第一个函数中遇到错误,因为我无法再正确访问 URL。

#Getting the number of Page
getPageNumber <- function(URL) {
  parsedDocument <- read_html(URL)
  results_per_page <- length(parsedDocument %>% html_nodes(".sr-list"))
  total_results <- parsedDocument %>%
    toString() %>%
    str_match(., 'num_results":"(.*?)"') %>% 
    .[,2] %>%
    as.integer()
  browser()
  pageNumber <- tryCatch(ceiling(total_results / results_per_page), error = function(e) {1})
  return(pageNumber)
}
getPageNumber("https://academic.oup.com/dnaresearch/search-results?rg_IssuePublicationDate=01%2F01%2F2010%20TO%2012%2F31%2F2010&fl_SiteID=5275&page=")

输出应该是getPageNumber("academic.oup.com/dnaresearch/…) [1] 9

相反,我得到NA

标签: htmlrweb-scraping

解决方案


推荐阅读