首页 > 解决方案 > PySpark - 基于开始/结束日期的行数

问题描述

假设我有一个如下的数据框,代表订阅了特定服务的帐户、订阅开始的日期以及订阅结束的日期(如果尚未结束,则为 null)。

ACCOUNT_ID   START_DATE   END_DATE
1            2018-05-01   2018-09-07
2            2018-07-20   2018-08-10
3            2018-06-10   null

我的目标是生成一个下表,其中每个月有多少人在该月的第一天订阅了该服务。

DATE        SUBSCRIBER_COUNT
2018-01-01    0
2018-02-01    0
2018-03-01    0
2018-04-01    0
2018-05-01    1
2018-06-01    2
2018-07-01    3
2018-08-01    3
2018-09-01    2
2018-10-01    1
2018-11-01    1

我尝试过的方法:

标签: pythonapache-sparkpyspark

解决方案


推荐阅读