首页 > 解决方案 > 如何根据变量匹配检查条件

问题描述

假设我有这些数据:

data <- tibble(person=c("Jack", "Jill", "Bill"), pet=c("dog", "cat", "zebra"), pet_cat=c(0,1,0), pet_dog=c(0,1,1), pet_llama=c(1,1,1))

  person pet   pet_cat pet_dog pet_llama
  <chr>  <chr>   <dbl>   <dbl>     <dbl>
1 Jack   dog         0       0         1
2 Jill   cat         1       1         1
3 Bill   zebra       0       1         1

我想要做的是,对于每个人,首先找出他们拥有的宠物(杰克有一只狗),然后转到包含此宠物的列(对于杰克,这是pet_dog列)。然后创建一个新列,match复制列中的值pet_(对于 Jack,这是0因为pet_dog的值为Jack0)。不确定这是否有必要,但考虑这一点的一种方式是pet指 对person宠物的偏好,pet_列指宠物商店中宠物的可用性,并match说明该人是否能够购买他们喜欢的宠物。

此外,在某些情况下,不会有与'spet_匹配的列。在这些情况下,应该是.personpetmatch0

请注意,对于一个人,比如说Jill,其他人的值是完全不相关的,pet_不对应于Jillpet值的列也是如此。

这是期望的结果:

data_want <- tibble(person=c("Jack", "Jill", "Bill"), pet=c("dog", "cat", "zebra"), pet_cat=c(0,1,0), pet_dog=c(0,1,1), pet_llama=c(1,1,1), match=c(0, 1, 0))

  person pet   pet_cat pet_dog pet_llama match
  <chr>  <chr>   <dbl>   <dbl>     <dbl> <dbl>
1 Jack   dog         0       0         1     0
2 Jill   cat         1       1         1     1
3 Bill   zebra       0       1         1     0

我怎样才能做到这一点?

请注意,我认为这将涉及使用类似或组合的pet东西将人的值放入变量中,然后转到此列并提取相关值并将其放入。getassignpaste0match

标签: rvariablescomparisontidyversevariable-names

解决方案


一个选项tidyverse

  1. 重塑为长格式pivot_longer
  2. value对1的行进行子集化
  3. 通过将 'pet' 中的子字符串与 'name' 列匹配来创建一个逻辑列 -str_detect
  4. 按'pet'分组,检查any'match'中是否有TRUE,强制转换为二进制(+
  5. 加入原始数据集 -right_join
  6. 如果我们想保留原始数据的顺序,请创建一个序列列 ( row_number()) 并对行进行排序 ( arrange)
library(dplyr)
library(tidyr)
library(stringr)
data %>%
     pivot_longer(cols = contains('_')) %>% 
     filter(value == 1) %>% 
     mutate(match = str_detect(name, pet)) %>%
     group_by(pet) %>%
     summarise(match = +(any(match))) %>% 
     right_join(data %>% 
                   mutate(rn = row_number())) %>% 
     arrange(rn) %>% 
     select(names(data), match)

-输出

# A tibble: 3 x 6
  person pet   pet_cat pet_dog pet_llama match
  <chr>  <chr>   <dbl>   <dbl>     <dbl> <int>
1 Jack   dog         0       0         1     0
2 Jill   cat         1       1         1     1
3 Bill   zebra       0       1         1     0

或者可以使用rowwise

  1. 创建rowwise属性 - 按行分组
  2. 用于c_across创建逻辑向量,即值为 1
  3. starts_with使用逻辑索引子集'pet_'`的列名,
  4. 删除子字符串 'pet_' -str_remove
  5. 通过连接它们创建单个字符串 -str_c
  6. 删除组属性 ( ungroup) 并用于str_detect检测“宠物”列值是否与创建的正则表达式模式匹配
data %>%
   rowwise %>% 
   mutate(match =  str_c(str_remove(names(select(cur_data(), 
      contains('_')))[c_across(contains("_")) == 1], ".*_"), 
          collapse="|")) %>%
   ungroup %>% 
   mutate(match = +(str_detect(pet, match)))
# A tibble: 3 x 6
  person pet   pet_cat pet_dog pet_llama match
  <chr>  <chr>   <dbl>   <dbl>     <dbl> <int>
1 Jack   dog         0       0         1     0
2 Jill   cat         1       1         1     1
3 Bill   zebra       0       1         1     0

或使用base R

  1. 选择包含 'pet_' (nm1) 的列名
  2. 根据行序列创建行/列索引,并match使用“pet”列创建列名的子字符串
  3. 使用 2 作为 a 从选定的数据列中获取相应的元素matrix
  4. 将 NA(即不匹配)的元素替换为 0
nm1 <- names(data)[startsWith(names(data), "pet_")]
data$match <- as.data.frame(data[nm1])[cbind(seq_len(nrow(data)), 
       match(data$pet, sub("pet_", "", nm1)))]
data$match[is.na(data$match)] <- 0

-输出

data
# A tibble: 3 x 6
  person pet   pet_cat pet_dog pet_llama match
  <chr>  <chr>   <dbl>   <dbl>     <dbl> <dbl>
1 Jack   dog         0       0         1     0
2 Jill   cat         1       1         1     1
3 Bill   zebra       0       1         1     0

推荐阅读