首页 > 解决方案 > 我在抓取和提取值时遇到问题

问题描述

所以我正在尝试网络抓取 Indeed.com 我有这组代码

base_url <- "https://www.indeed.com/jobs?q="
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <-test_url %>%
  html_node('#searchCountPages') %>%
  html_text()

我试图将工作总数作为整数计算,但存在多个问题。在上面的代码中,total_jobs 是一个字符向量(我认为),它类似于“1,128 个工作的第 1 页”

我基本上试图在这个例子中将 1128 的值提取为一个整数,但我不能有人帮我吗?

标签: rweb-scrapingrvest

解决方案


遵循@NelsonGon 提示:

library(rvest)
library(stringr)

test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <- test_url %>%
  html_node('#searchCountPages') %>%
  html_text() %>% 
  str_extract_all(., "\\d+") %>%
  gsub(",", "", .) %>% 
  unlist(.) %>% 
  as.integer() %>% 
  max()

推荐阅读