r - R中的流失率
问题描述
我有一个名为 df_a 的数据集以数百万运行。我想计算流失率并将其分组为几个月。
在示例数据上,我运行代码来准备我的数据。
逻辑是求最小月份(获取月份)
根据记录
求上个月 求月差,将月差分组
下面的代码
df_a<-data.table(df)
df_a[,"min_date" := min(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a[,"max_date" := max(yw), by=c("CUSTOMER_DIMENSION_ID")]
df_a$min_date_m<-anydate(df_a$min_date)
df_a$max_date_m<-anydate(df_a$max_date)
df_a$diff_days <- df_a$max_date_m - df_a$min_date_m
df_a$difference <- as.numeric(df_a$diff_days) /(365.25/12)
df_a$Month_Bucket<-ifelse((df_a$difference>=0 & df_a$difference<3),"3",
ifelse((df_a$difference>=3 & df_a$difference<6),"3-6",
ifelse((df_a$difference>=6 & df_a$difference<9),"6-9",
ifelse((df_a$difference>=9 & df_a$difference<12),"9-12",
ifelse((df_a$difference>=12 & df_a$difference<24),"12-24",
"24+")))))
data_a <- df_a[c(1,1:nrow(df_a)),]
setDT(data_a)
xxx<-(cohorts <-dcast(unique(data_a)[,cohort:=min(yw),by=CUSTOMER_DIMENSION_ID],cohort~Month_Bucket))
我得到以下格式的输出
Month 3
2020-08 92876
2020-07 144873
但是输出不正确
我想要的是
Month no of unique customers acquired 0-3 3-6 6-9
2019-08 85749
2019-07 128060
输出基本上是总结几个月的客户并分配一个桶。但是,如果我在 2019-08 年获得 85749 名客户,我将在 3-6 个月内再次说 0-3 25k 的 25k 客户
解决方案
这里可以做:
data_unique <- unique(data_a)
ccc <- ( cohorts <- dcast( data_unique[ ,
cohort := min(yw),
by=CUSTOMER_DIMENSION_ID],
cohort ~ Month_Bucket,
value.var = "CUSTOMER_DIMENSION_ID",
function(x) { length(unique(x) } ) )
)
推荐阅读
- java - Mapbox:如果我们想在地图上显示一条线,我们是否需要 LineLayer
- pytorch - HuggingFace 实施中的改革者本地和 LSH 关注
- typescript - assertion.softAssert 在基于打字稿的量角器框架中实现软断言时不是一个函数
- iis - 将 Apollo 服务器部署到 IIS
- python - 打开基本 json 文件时 Python json 解码错误
- sql - 使用 SQL 构建具有动态列标题的电子表格
- java - MacOS Android Studio 3.6.3 新创建的 XML 为红色(自动完成)
- layout - 在 VScode 中,如何拆分面板以使终端和编辑器彼此相邻
- apache-zookeeper - Apache Curator ZooKeeper 单元测试给出错误
- python - 通过检查连续行中的值来循环数据框组