首页 > 解决方案 > PySpark:为缺失日期添加新行,按另一列中的唯一值分组

问题描述

我有一个看起来像这样的数据框:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-03           1          3
2017-09-05           1          4 
2017-09-05           2          1   
2017-09-07           2          2

我想要的是这样的:

date                 ID        Val
-------------------------------------
2017-09-01           1          2
2017-09-02           1          NULL
2017-09-03           1          3
2017-09-04           1          NULL
2017-09-05           1          4
2017-09-05           2          1   
2017-09-06           2          NULL
2017-09-07           2          2

有没有办法做到这一点,不涉及循环遍历唯一 ID、过滤然后收集最小和最大日期?

标签: pythonpyspark

解决方案


推荐阅读