python - PySpark:为缺失日期添加新行,按另一列中的唯一值分组
问题描述
我有一个看起来像这样的数据框:
date ID Val
-------------------------------------
2017-09-01 1 2
2017-09-03 1 3
2017-09-05 1 4
2017-09-05 2 1
2017-09-07 2 2
我想要的是这样的:
date ID Val
-------------------------------------
2017-09-01 1 2
2017-09-02 1 NULL
2017-09-03 1 3
2017-09-04 1 NULL
2017-09-05 1 4
2017-09-05 2 1
2017-09-06 2 NULL
2017-09-07 2 2
有没有办法做到这一点,不涉及循环遍历唯一 ID、过滤然后收集最小和最大日期?
解决方案
推荐阅读
- sql-server - 直接通过SQL修改报表订阅参数
- visual-studio-code - 是否可以在侧边栏中添加自己的内容
- node.js - 使用 React Native 的 GridDB 离线优先模式
- python - 如何使用 BERT 对相似的句子进行聚类
- haskell - 缺少的 << 运算符
- chatbot - 刚开始使用 Botium,正在研究 GitHub 上提供的用于 utterance 的示例,不工作
- python - 在训练卷积神经网络 (DenseNet) 时,是否可以更改任何选项或参数以减少训练时间?
- c# - AJAX 成功的未定义结果
- python - python无法打印日期时间信息
- node.js - 同时支持 Webpack、Parcel 和 Rollup 的最佳方法是什么?