首页 > 解决方案 > 从长表结构创建数组

问题描述

我有 24MM 行数据,如下所示:

event_date  event_id    incoming_event_id
2018-12-21  A1          A2
2019-07-20  A2          A3
2018-03-21  B1          B2
2016-08-09  C1          C2
2017-04-02  C2          C3
2018-11-10  C3          C4

我想要做的是为每个事件分组创建一个数组。在这种情况下,它们看起来像:

 event_groups
[A1, A2, A3]
[B1, B2]
[C1, C2, C3, C4]

这些数组的长度可能会持续一段时间,我怀疑最多为 100。最有效的方法是什么?

标签: pythonpysparkdatabricks

解决方案


推荐阅读