sql - 具有唯一列值的 pyspark 数据帧数据转换
问题描述
我正在尝试使用 sql 功能或通过解决方案本身的数据框组来学习 pysaprk。
谢谢。
df1:
Name Place Product
AA Germany pencil
AA Germany pen
AA Germany pen
BB Holland hat
BB Holland hat
BB Holland pen
CC USA laptop
CC USA laptop
CC USA charger
预期输出:
Name Place Product
AA Germany pencil, pen
BB Holland hat, pen
CC USA laptop, charger
解决方案
您可以使用 collect_set 作为
df.groupBy("Name","Place").agg(concat_ws(",",collect_set("Product")))
推荐阅读
- continuous-integration - 带有 GitLab CI/CD 和 vsphere-iso 的自动化 Ubuntu 20.04 模板
- python - Shell - python 脚本输出中的新行分隔符
- regex - 可以从postgresql连接字符串中提取用户名和密码的正则表达式?
- .htaccess - .htaccess,引擎重写,不管前面的一切,引用同一个文件夹
- python - Discord.py 在加入时向成员发送消息并赋予他们角色
- plot - 在 SAS 中绘制聚类分析结果
- java - Apache 服务器上的 TLS
- javascript - Javascript:根据模式拆分数组:项目 1、5、10,然后是 2、6、11,然后是 3、7、12
- android - 重复类 org.xmlpull.v1.XmlPullParser Android
- linux - VS Code N:跳过获取配置文件'main/binary-arm64/Packages'