r - 使用 Base R 索引的 Tidyeval 编程
问题描述
问题
我正在尝试创建一个使用dplyr
语法 and的函数[]
,但我错误地使用了 quosures。问题源于具有 quosures 和 tidyeval 的岩石基础。我希望有人能解释为什么我的功能不起作用。
背景
我发现这段代码非常有用,我想把它变成一个函数,我可以在不使用字符串的情况下改变参数。使用Programming with dplyr Vignette,我能够得到这个功能。(注:我更改了原始代码以满足我的需要)
library(dplyr)
persistence <- function(df, period, ...){
period <- enquo(period)
group_var <- quos(...)
df %>%
group_by(!!! group_var, !! period) %>%
summarise(persistence_rate = length(base::intersect(id, df$id[df$rank==(rank+1)]))/n_distinct(id))
}
使用我在下面提供的数据,使用这个函数可以得到我想要的输出:
persistence(data, period)
# A tibble: 5 x 2
period persistence_rate
<chr> <dbl>
1 a 0.500
2 b 1.00
3 c 0.667
4 d 0.667
5 e 0.
不幸的是,当尝试改变 id 和 rank 列时,我不确定如何合并 quosures。
我试过的
使用这些数据:
data <- structure(list(id = c("A", "B", "C", "D", "A", "C", "A", "B", "C", "A", "D", "C", "A", "B", "C"),
period = c("a", "a", "a", "a", "b", "b", "c", "c", "c", "d", "d", "d", "e", "e", "e"),
rank = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5),
group = c("g1", "g2", "g1", "g2", "g1", "g1", "g1", "g2", "g1", "g1", "g2", "g1", "g1", "g2", "g1")),
.Names = c("id", "period", "rank", "group"),
row.names = c(NA, -15L),
class = c("tbl_df", "tbl", "data.frame"))
我最终得到了这个功能:
persistence_new <- function(df, id, period, rank, ...){
period <- enquo(period)
id <- enquo(id)
rank <- enquo(rank)
group_var <- quos(...)
df %>%
group_by(UQS(group_var), UQ(period)) %>%
summarise(persistence_rate = length(base::intersect(UQ(id), UQ(id)[UQ(rank) == (UQ(rank) + 1)]))/n_distinct(UQ(id)))
}
这给了我这个结果:
persistence_new(data, id, period, rank)
# A tibble: 5 x 2
period persistence_rate
<chr> <dbl>
1 a 0.
2 b 0.
3 c 0.
4 d 0.
5 e 0.
我花了很长时间才达到这一点。当我尝试不同的事情时,它经常会吐出一个错误。现在,它正在运行,但没有给我想要的结果。
我基本上尝试了我能想到的()
, UQ
, []
,的每一次迭代。[[]]
谢谢
我希望能更多地了解 tidyeval,这样我以后就不会遇到这么困难的时候了。话虽如此,并且鉴于问题是由于缺乏理解,我将不胜感激任何关于为什么我当前的功能不起作用的观点。任何使 tidyeval 更直观的见解都会很棒。
或者,请随时指向我使用 dplyr Vignette 进行编程的特定部分。我已经完成了整个事情两次,但是要关注的特定部分可能会很有用。
我很感激帮助。让我知道我是否可以提供任何其他信息。
会话信息
> sessionInfo()
R version 3.4.4 (2018-03-15)
Platform: x86_64-w64-mingw32/x64 (64-bit)
Running under: Windows >= 8 x64 (build 9200)
Matrix products: default
locale:
[1] LC_COLLATE=English_United States.1252 LC_CTYPE=English_United States.1252 LC_MONETARY=English_United States.1252
[4] LC_NUMERIC=C LC_TIME=English_United States.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] bindrcpp_0.2 dplyr_0.7.4
loaded via a namespace (and not attached):
[1] Rcpp_0.12.16 utf8_1.1.3 crayon_1.3.4 assertthat_0.2.0 R6_2.2.2
[6] magrittr_1.5 pillar_1.2.1 cli_1.0.0 rlang_0.2.0.9001 rstudioapi_0.7.0-9000
[11] tools_3.4.4 glue_1.2.0 yaml_2.1.19 compiler_3.4.4 pkgconfig_2.0.1
[16] bindr_0.1.1 tibble_1.4.2
解决方案
我认为这会以对 dplyr 更友好的方式满足您的要求。
persistence_new <- function(df, id, period, rank, ...){
period <- enquo(period)
id <- enquo(id)
rank <- enquo(rank)
group_var <- quos(...)
df %>% group_by(!!id) %>%
arrange(!!rank) %>%
mutate(nextrank = lead(!!rank)) %>%
group_by(!!!group_var, !!period) %>%
summarize(persistence_rate=sum(nextrank == !!rank + 1, na.rm=TRUE)/n())
}
persistence_new(data, id, period, rank)
# period persistence_rate
# <chr> <dbl>
# 1 a 0.5
# 2 b 1
# 3 c 0.667
# 4 d 0.667
# 5 e 0
而不是进行子查询类型连接,这里我们只是lead()
用来查看下一个排名列是否比最后一个多一个,并根据该信息进行汇总。由于这使用了所有 dplyr 函数,因此它们很容易与 bang-bang 运算符一起使用。
另外,这里的时期和等级似乎基本相同。如果要在函数内计算排名,则不需要将排名作为参数。例如
persistence_new <- function(df, id, period, ...){
period <- enquo(period)
id <- enquo(id)
group_var <- quos(...)
data %>%
mutate(rank = group_indices(., period)) %>%
group_by(!!id) %>%
arrange(rank) %>%
mutate(nextrank = lead(rank)) %>%
group_by(!!!group_var, !!period) %>%
summarize(persistence_rate=sum(nextrank == rank + 1, na.rm=TRUE)/n())
}
persistence_new(data, id, period)
推荐阅读
- microservices - 如何使用 Consul 连接 spring-boot 微服务
- flutter - Flutter 火种交换卡奇怪的更新行为
- amazon-web-services - 您将如何检查拒绝不安全的传输 IAM 策略是否有效?
- php - foreach 给我错误的结果
- c++ - 如何拆分字符串数组,然后将该拆分数组的每个第一个索引与字符进行比较?
- javascript - join() vs JSON.stringify() with Array full of objects
- wordpress - 获取订单号以将其传递给另一个 woocommerce 插件
- sql - PostgreSQL:未使用的索引导致查询性能不佳?
- python - 破折号/情节歇斯底里地间隔= 500
- swift - 更新选择器 (SwiftUI)