首页 > 解决方案 > Spark - 按多列分组 VS 按从相同多列创建的 id 分组

问题描述

从多个列创建一个 id 然后按 分组是个好主意吗?也许按一列(id)对数据进行分组更有效?

例子:

my_dataframe = my_dataframe \
  .withColumn("my_key", F.concat(F.col("column1"),
                                 F.col("column2"),
                                 F.col("column3"))) \
  .groupBy(F.col("my_key")) \
  .agg(...)

标签: apache-sparkpyspark

解决方案


推荐阅读