r - 我在抓取和提取值时遇到问题
问题描述
所以我正在尝试网络抓取 Indeed.com 我有这组代码
base_url <- "https://www.indeed.com/jobs?q="
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <-test_url %>%
html_node('#searchCountPages') %>%
html_text()
我试图将工作总数作为整数计算,但存在多个问题。在上面的代码中,total_jobs 是一个字符向量(我认为),它类似于“1,128 个工作的第 1 页”
我基本上试图在这个例子中将 1128 的值提取为一个整数,但我不能有人帮我吗?
解决方案
遵循@NelsonGon 提示:
library(rvest)
library(stringr)
test_url <- read_html("https://www.indeed.com/jobs?q=IBM&l=Anywhere&filter=0&start=0")
total_jobs <- test_url %>%
html_node('#searchCountPages') %>%
html_text() %>%
str_extract_all(., "\\d+") %>%
gsub(",", "", .) %>%
unlist(.) %>%
as.integer() %>%
max()
推荐阅读
- npm - 在 .npmrc 中配置 github 包时,`npm search` 是否不起作用
- python-3.x - Pyqt5 Python3 QPushButton 默认 StrongFocus 颜色或选项卡选择颜色
- python - 限制线或多项式图的范围
- swift - Swift 泛型 T.Type 变为 T.Protocol
- reactjs - 使用 typescript 的 CombineReducers 功能
- javascript - 试图让一个不和谐的机器人随机选择一个用户
- c++ - 实现文件中的私有变量声明
- reactjs - 单击按钮时,不会更新先前的状态
- python - 在 argparse.ArgumentParser 中构建所需的组
- javascript - 如何在“onclick”上颠倒 div 元素的顺序?