首页 > 解决方案 > 使用 dplyr 对两列数据框中的对象进行分类

问题描述

嗨,我有一个示例数据框,如下所示:

   Policy_Holder_ID Insured_ID
   <chr>            <chr>     
 1 ID27343          ID215664  
 2 ID27310          ID27310   
 3 ID27343          ID205729  
 4 ID27343          ID205728  
 5 ID27348          ID205734  
 6 ID27348          ID205735  
 7 ID27315          ID205719  
 8 ID27315          ID27315   
 9 ID27345          ID205731  
10 ID27345          ID205733  
11 ID27345          ID27345   
12 ID2731           ID2731    
13 ID27310          ID205714  
14 ID27310          ID205715 

对不起,如果它不是dput形式。我尝试使用此功能,但没有得到正确的结果

我想要将此数据框分为 3 个不同的类别,如下所示:

  1. 第一组:那些为自己投保的投保人。换句话说,Policy_Holder_IDInsured_ID是相同的(例如:ID2731)
  2. 第二组:只为他人购买保险的投保人。换句话说,他们列在Policy_Holder_ID但不在Insured_ID中,并且有 1 个或多个Insured_ID(例如:ID27343)
  3. 第三组:为自己和他人购买保险的投保人(例如:ID27310)

所以输出应该是这样的:

   Policy_Holder_ID Insured_ID    group
   <chr>            <chr>     
 1 ID27343          ID215664         2
 2 ID27310          ID27310          3
 3 ID27343          ID205729         2
 4 ID27343          ID205728         2
 5 ID27348          ID205734         2
 6 ID27348          ID205735         2
 7 ID27315          ID205719         3
 8 ID27315          ID27315          3  
 9 ID27345          ID205731         3
10 ID27345          ID205733         3
11 ID27345          ID27345          3  
12 ID2731           ID2731           1  
13 ID27310          ID205714         3 
14 ID27310          ID205715         3

我希望您可以提供一个节省时间的解决方案,而不是使用for循环数据。我的原始数据有超过 400000 行,所以 for 循环对我没有帮助。

标签: rdplyrcategorization

解决方案


我们可以case_when在按“Policy_Holder_ID”分组后使用。根据描述,如果我们有all'Insured_ID' 的元素与 'Policy_Holder_ID' 匹配,则返回 1,如果它们都不匹配(!=-> 再次与all),则返回 2,默认选项应返回 3。

library(dplyr)
df1 %>% 
  group_by(Policy_Holder_ID) %>%
  mutate(group = case_when(all(Insured_ID == Policy_Holder_ID) ~ 1, 
          all(Insured_ID != Policy_Holder_ID)~ 2, 
       TRUE ~ 3)) %>%
  ungroup

-输出

# A tibble: 14 x 3
#   Policy_Holder_ID Insured_ID group
#   <chr>            <chr>      <dbl>
# 1 ID27343          ID215664       2
# 2 ID27310          ID27310        3
# 3 ID27343          ID205729       2
# 4 ID27343          ID205728       2
# 5 ID27348          ID205734       2
# 6 ID27348          ID205735       2
# 7 ID27315          ID205719       3
# 8 ID27315          ID27315        3
# 9 ID27345          ID205731       3
#10 ID27345          ID205733       3
#11 ID27345          ID27345        3
#12 ID2731           ID2731         1
#13 ID27310          ID205714       3
#14 ID27310          ID205715       3

数据

df1 <- structure(list(Policy_Holder_ID = c("ID27343", "ID27310", "ID27343", 
"ID27343", "ID27348", "ID27348", "ID27315", "ID27315", "ID27345", 
"ID27345", "ID27345", "ID2731", "ID27310", "ID27310"), Insured_ID = c("ID215664", 
"ID27310", "ID205729", "ID205728", "ID205734", "ID205735", "ID205719", 
"ID27315", "ID205731", "ID205733", "ID27345", "ID2731", "ID205714", 
"ID205715")), class = "data.frame", row.names = c("1", "2", "3", 
"4", "5", "6", "7", "8", "9", "10", "11", "12", "13", "14"))

推荐阅读