首页 > 解决方案 > 如何聚合 PySpark 数组中值的计数

问题描述

我有一个 pyspark 数组,可以将客户映射到类别列表以及地理位置。

[('customer', 'bigint'), ('category', 'array<int>'), ('geo_location', 'string')]

每个客户都可以映射到多个类别,因此我将其捕获为一个列表。

我想在保留地理信息的同时计算每个类别的客户数量。

pyspark 中是否有一种方法可以轻松地将列表值解压缩为列,以便我计算它们?或者,PySpark 中是否有更好的模式可以更好地完成此任务?

标签: pyspark

解决方案


推荐阅读