r - 在 R 中的数据框中的某些列上应用自定义函数
问题描述
我有以下数据框:
library(tidyverse)
library(lubridate)
date_data1 <- data.frame(
name = c('groupA'),
number = as.numeric(c(1:10)),
date1 = seq(from = ymd('2019-07-01'), to = ymd('2019-07-10'), by='days'),
date2 = seq(from = ymd('2019-07-02'), to = ymd('2019-07-11'), by='days'),
date3 = seq(from = ymd('2019-06-29'), to = ymd('2019-07-08'), by='days'),
date4 = seq(from = ymd('2019-07-03'), to = ymd('2019-07-12'), by='days'),
date5 = seq(from = ymd('2019-07-05'), to = ymd('2019-07-14'), by='days')
) %>%
mutate(yday = yday(date5))
date_data2 <- data.frame(
name = c('groupB'),
number = as.numeric(c(1:10)),
date1 = seq(from = ymd('2019-07-01'), to = ymd('2019-07-10'), by='days'),
date2 = seq(from = ymd('2019-07-02'), to = ymd('2019-07-11'), by='days'),
date3 = seq(from = ymd('2019-06-29'), to = ymd('2019-07-08'), by='days'),
date4 = seq(from = ymd('2019-07-03'), to = ymd('2019-07-12'), by='days'),
date5 = seq(from = ymd('2019-07-05'), to = ymd('2019-07-14'), by='days')
) %>%
mutate(yday = yday(date5))
date_data <- bind_rows(date_data1, date_data2)
我想将以下函数应用于 date1 到 date4 列:
mad <- function(x, y) abs(mean(x - y, na.rm = TRUE))
但是,我想保留“名称”标识符。
我过去曾问过类似的问题,并且解决方案有效。但是,在尝试调整代码时,我遇到了问题。
根据上一篇文章,这是我认为应该起作用的方法。
apply(date_data[, 3:6], function(x) mad(date_data[,7], x))
换句话说,我试图找到每个组的第 7 列(“date5”)和第 3 到 5 列(即“date1”到“date4”)之间的平均绝对差值(自定义函数“mad”)。目标是有一个新的数据框,它为每个日期列 (1-4) 提供两行的平均绝对差,一行用于 groupA,另一行用于 groupB。
我尝试映射函数,但出现“参数暗示不同的行数”的错误。
这是 map() 不起作用的代码:
date_data_test <- date_data %>%
group_by(name) %>%
map_at(c(3:6), function(x) mad(date_data[,7], x)) %>%
data.frame()
任何建议表示赞赏。谢谢你。
解决方案
使用across
dplyr 中的函数:
library(tidyverse)
library(lubridate)
#>
#> Attaching package: 'lubridate'
#> The following objects are masked from 'package:base':
#>
#> date, intersect, setdiff, union
date_data1 <- data.frame(
name = c('groupA'),
number = as.numeric(c(1:10)),
date1 = seq(from = ymd('2019-07-01'), to = ymd('2019-07-10'), by='days'),
date2 = seq(from = ymd('2019-07-02'), to = ymd('2019-07-11'), by='days'),
date3 = seq(from = ymd('2019-06-29'), to = ymd('2019-07-08'), by='days'),
date4 = seq(from = ymd('2019-07-03'), to = ymd('2019-07-12'), by='days'),
date5 = seq(from = ymd('2019-07-05'), to = ymd('2019-07-14'), by='days')
) %>%
mutate(yday = yday(date5))
date_data2 <- data.frame(
name = c('groupB'),
number = as.numeric(c(1:10)),
date1 = seq(from = ymd('2019-07-01'), to = ymd('2019-07-10'), by='days'),
date2 = seq(from = ymd('2019-07-02'), to = ymd('2019-07-11'), by='days'),
date3 = seq(from = ymd('2019-06-29'), to = ymd('2019-07-08'), by='days'),
date4 = seq(from = ymd('2019-07-03'), to = ymd('2019-07-12'), by='days'),
date5 = seq(from = ymd('2019-07-05'), to = ymd('2019-07-14'), by='days')
) %>%
mutate(yday = yday(date5))
date_data <- bind_rows(date_data1, date_data2) %>%
as_tibble()
date_data %>%
group_by(name) %>%
summarise(across(
.cols = 2:5,
.fns = ~ abs(mean(interval(.x, date5) %/% days(1))),
.names = "diff_{.col}_date5"
))
#> # A tibble: 2 × 5
#> name diff_date1_date5 diff_date2_date5 diff_date3_date5 diff_date4_date5
#> <chr> <dbl> <dbl> <dbl> <dbl>
#> 1 groupA 4 3 6 2
#> 2 groupB 4 3 6 2
由reprex 包于 2021-11-11 创建(v2.0.1)
推荐阅读
- azure - 如果不使用耳机,Azure 语音服务的“回声消除”
- android - 我想通过wifi连接到android adb而不使用我们输入adb tcpip
- python - 可以恢复收据中字符的褪色部分吗?
- networking - 你们能帮我弄清楚我刚刚制作的 VLSM 吗?
- javascript - ID3 JS Unicode ReactJs
- r - R 中的 %<>% 用于什么?
- php - Laravel 中的 WebService SOAP WSDL
- npm - npm run dev/watch/prod 第一次没有正确生成 css/js,但再次运行时会修复它
- python - 为什么我会收到 pandas.concat 的“FutureWarning”?
- tomcat - 部署 Vaadin 战争时 Tomcat 堆栈溢出错误