pyspark - 如何聚合 PySpark 数组中值的计数
问题描述
我有一个 pyspark 数组,可以将客户映射到类别列表以及地理位置。
[('customer', 'bigint'), ('category', 'array<int>'), ('geo_location', 'string')]
每个客户都可以映射到多个类别,因此我将其捕获为一个列表。
我想在保留地理信息的同时计算每个类别的客户数量。
pyspark 中是否有一种方法可以轻松地将列表值解压缩为列,以便我计算它们?或者,PySpark 中是否有更好的模式可以更好地完成此任务?
解决方案
推荐阅读
- r - R在固定时间段聚合时间序列数据,不同列上的聚合不同
- python - 跨组的 Pyspark 示例数据框
- google-tag-manager - Google 跟踪代码管理器 - 自定义事件 - 类别未定义
- python - 尝试使用请求将图像发布到 php 时引发错误
- c# - 如何在窗口窗体周围制作边框
- android - 安装失败,原因是:“pm install-create -r -t -S 4654636”返回错误“UNSUPPORTED”
- opengl-es - 多上下文/多线程场景下GL_SYNC_FLUSH_COMMANDS_BIT和glFlush的区别
- ruby-on-rails - Select2 Css 未通过纱线或资产预编译加载
- c# - C#:使用命令行和 C# 代码的相同命令不起作用
- python-3.x - Pycharm未解决的参考突出显示