首页 > 解决方案 > R中的流失率

问题描述

我有一个名为 df_a 的数据集以数百万运行。我想计算流失率并将其分组为几个月。

在示例数据上,我运行代码来准备我的数据。
逻辑是求最小月份(获取月份)
根据记录
求上个月 求月差,将月差分组

下面的代码

df_a<-data.table(df)

df_a[,"min_date" := min(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a[,"max_date" := max(yw), by=c("CUSTOMER_DIMENSION_ID")]

df_a$min_date_m<-anydate(df_a$min_date)
df_a$max_date_m<-anydate(df_a$max_date)

df_a$diff_days <- df_a$max_date_m - df_a$min_date_m
df_a$difference <- as.numeric(df_a$diff_days) /(365.25/12)


df_a$Month_Bucket<-ifelse((df_a$difference>=0 & df_a$difference<3),"3",
                          ifelse((df_a$difference>=3 & df_a$difference<6),"3-6",
                          ifelse((df_a$difference>=6 & df_a$difference<9),"6-9",
                          ifelse((df_a$difference>=9 & df_a$difference<12),"9-12",              
                          ifelse((df_a$difference>=12 & df_a$difference<24),"12-24",                
                                        "24+")))))


data_a <- df_a[c(1,1:nrow(df_a)),]
setDT(data_a)

  xxx<-(cohorts <-dcast(unique(data_a)[,cohort:=min(yw),by=CUSTOMER_DIMENSION_ID],cohort~Month_Bucket))

我得到以下格式的输出

Month        3                                                          
2020-08     92876                                                                 
2020-07     144873

但是输出不正确

我想要的是

Month      no of unique customers acquired  0-3  3-6 6-9  
2019-08       85749
2019-07      128060  

输出基本上是总结几个月的客户并分配一个桶。但是,如果我在 2019-08 年获得 85749 名客户,我将在 3-6 个月内再次说 0-3 25k 的 25k 客户

标签: r

解决方案


这里可以做:

data_unique <- unique(data_a)

ccc <- ( cohorts <- dcast( data_unique[ , 
                                       cohort := min(yw), 
                                       by=CUSTOMER_DIMENSION_ID], 
             cohort ~ Month_Bucket,
             value.var = "CUSTOMER_DIMENSION_ID",
             function(x) { length(unique(x) } ) ) 
)

推荐阅读