首页 > 解决方案 > 具有唯一列值的 pyspark 数据帧数据转换

问题描述

我正在尝试使用 sql 功能或通过解决方案本身的数据框组来学习 pysaprk。

谢谢。

df1:

Name     Place     Product
AA       Germany   pencil
AA       Germany   pen
AA       Germany   pen
BB       Holland   hat
BB       Holland   hat
BB       Holland   pen
CC       USA       laptop
CC       USA       laptop
CC       USA       charger

预期输出:

Name     Place     Product
AA       Germany   pencil, pen
BB       Holland   hat, pen
CC       USA       laptop, charger

标签: sqlpython-3.xdataframeselectpyspark

解决方案


您可以使用 collect_set 作为

df.groupBy("Name","Place").agg(concat_ws(",",collect_set("Product")))

推荐阅读