r - 从多个链接创建一个 for 循环以创建一个表,使用多个季节/年份的 ESPN 链接
问题描述
我有以下链接,成功抓取,我想创建一个for
循环。我正在抓取的表格分布在 3 页上,因此whip_2018a
、whip_2018b
和whip_2018c
链接向量:
library(tidyverse)
library(rvest)
whip_2018a <- "http://www.espn.com/mlb/stats/pitching/_/order/false"
whip_2018b <- "http://www.espn.com/mlb/stats/pitching/_/count/41/qualified/true/order/false"
whip_2018c <- "http://www.espn.com/mlb/stats/pitching/_/count/81/qualified/true/order/false"
这些链接是 2018 年的季节,但我的链接可以追溯到 2005 年。我怎样才能将以下代码变成一个for
循环来考虑多个页面链接和多个年份/季节?
# Scraping 2018 tables - there are multiple pages to the list
a2018 <- whip_2018a %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
b2018 <- whip_2018b %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
c2018 <- whip_2018c %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
# This creates the table for the 2018 season
whip_2018 <- rbind(a2018, b2018, c2018)
我理解这是否不可能,但我的直觉告诉我,一些合适的[i]
's 可以使这项工作。供参考,2017年的链接在这里(大多数季节至少有两个或三个链接):
whip_2017a <- "http://www.espn.com/mlb/stats/pitching/_/year/2017/order/false"
whip_2017b <- "http://www.espn.com/mlb/stats/pitching/_/year/2017/count/41/qualified/true/order/false")
WHIP 是 MLB 统计数据,因此是我的向量名称。
解决方案
考虑在定义的函数中概括您的过程并传入年份参数。并循环通过函数将年向量传递到一个lapply
数据帧列表中,以在末尾与do.call(rbind, ...)
or连接bind_rows
。
get_whip_data <- function(yr_param) {
# ASSIGN URLS
whip_a <- paste0("http://www.espn.com/mlb/stats/pitching/_/year/", yr_param, "/order/false")
whip_b <- paste0("http://www.espn.com/mlb/stats/pitching/_/year/", yr_param, "/count/41/qualified/true/order/false")
whip_c <- paste0("http://www.espn.com/mlb/stats/pitching/_/year/", yr_param, "/count/81/order/false")
# BUILD DATA FRAMES
a_data <- whip_a %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
b_data <- whip_b %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
c_data <- whip_c %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
# APPEND ALL
yr_df <- rbind(a_data, b_data, c_data) # OR do.call(rbind, list(a_data, b_data, c_data))
yr_df$year <- yr_param
return(yr_df)
}
df_list <- lapply(2005:2017, get_whip_data)
final_df <- do.call(rbind, df_list) # REQUIRES SAME COLUMNS ACROSS YEARS
final_df <- dplyr::bind_rows(df_list) # USE IF COLUMNS MAY DIFFER ACROSS YEARS
如果您有可用的硬编码链接,请使用Map
(wrapper to mapply
) 传递它们。这假设所有参数在Map
逐元素迭代时长度相等。
get_whip_data <- function(yr_param, whip_a, whip_b, whip_c) {
# BUILD DATA FRAMES
a_data <- whip_a %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
b_data <- whip_b %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
c_data <- whip_c %>%
read_html %>%
html_node("#my-players-table > div > div.mod-content > table") %>%
html_table(header = T)
# APPEND ALL
yr_df <- rbind(a_data, b_data, c_data)
yr_df$year <- yr_param
return(yr_df)
}
df_list <- Map(get_whip_data, years_vec, a_urls_vec, b_urls_vec, c_urls_vec)
final_df <- do.call(rbind, df_list) # REQUIRES SAME COLUMNS ACROSS YEARS
final_df <- dplyr::bind_rows(df_list) # USE IF COLUMNS MAY DIFFER ACROSS YEARS
推荐阅读
- svg - 如何删除悬停时的下划线
在svg 中的元素中 - android - Android Studio - XML 编辑器建议不起作用且属性较少
- imagemagick - 转换提取似乎比它应该提取的少
- google-maps - 将 NOAA 图表与 Google 地图结合使用
- c++ - 减去数组中的每个元素并找到其中最大的
- node.js - MongoDB 更新数组中的数组对象
- python - 求解二阶 ODE,然后绘制绘图。返回的数组大小与我需要的不匹配
- html - 将页面底部的页脚与固定的 html 页面高度对齐
- android - Room databaseBuilder 构建崩溃
- java - 无法连接到 MongoDB 数据库(过早到达流的末尾)