首页 > 解决方案 > 在 pyspark 中将集合聚合成更大的集合

问题描述

在我的数据集中,我有一列A是整数列表,表示一组整数。我想将所有这些集合聚合到代表联合的集合中(我猜仍然表示为列表)。有没有“简单”的方法来做到这一点?我所做的是:

agg(array_distinct(flatten(collect_list("A")))

但这似乎效率低下,因为似乎在某些时候,内存中会出现包含所有重复项的完全扁平化列表

标签: pyspark

解决方案


推荐阅读