首页 > 解决方案 > 如何计算pyspark数据帧(2.1.0)中键的出现次数

问题描述

语境

假设我有以下数据框:

col1 | col2 | col3
a    | toto | 1
a    | toto | 2
a    | toto | 45
a    | toto | 789
a    | toto | 456
b    | titi | 4
b    | titi | 8

col1作为主键。

我想知道如何确定哪个键在col1数据框中出现少于 5 次。

所以输出应该是:

col1 | col2 | col3
b    | titi | 

到目前为止,我想出了以下解决方案:

anc_ref_window = Window.partitionBy("col1")
df\
    .withColumn("temp_one", lit(1)) \
    .withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
    .drop("temp_one") \
    .filter(col("count") < 5) \
    .drop("count") \
    .show()

这给出了以下结果:

col1 | col2 | col3
b    | titi | 4
b    | titi | 8

问题

1-这是解决问题的正确方法吗?

2 - 我怎样才能得到预期的输出?使用我的 pyspark 版本(2.1.0),似乎没有像select distinct col1,col2我通过 Impala 所做的那样的机制(例如)。

编辑:

col3 中的输出值对我来说无关紧要。

标签: pythonapache-sparkpysparkapache-spark-2.0

解决方案


另一种方法:

df_lessthan5 = df.groupBy(col("col1")).count() \
                 .filter(col("count") < 5) \
                 .drop(col("count"))

df_distinct = df.drop(col("col3")).distinct()

result = df_distinct.join(df_lessthan5, ['col1'], 'inner')

结果 :

result.show()
+----+----+
|col1|col2|
+----+----+
|   b|titi|
+----+----+

如果与窗口操作相比,性能明智:

如果您确定您的窗口列 (col1) 没有高度倾斜,那么它会稍微好一些或与此 GroupBy 解决方案相当。

但是,如果您col1的偏斜度很高,那么它将无法正确并行化,并且必须由 1 个任务完成所有主要操作。在这种情况下,您应该选择 groupBy + join


推荐阅读