python - 如何计算pyspark数据帧(2.1.0)中键的出现次数
问题描述
语境
假设我有以下数据框:
col1 | col2 | col3
a | toto | 1
a | toto | 2
a | toto | 45
a | toto | 789
a | toto | 456
b | titi | 4
b | titi | 8
以col1
作为主键。
我想知道如何确定哪个键在col1
数据框中出现少于 5 次。
所以输出应该是:
col1 | col2 | col3
b | titi |
到目前为止,我想出了以下解决方案:
anc_ref_window = Window.partitionBy("col1")
df\
.withColumn("temp_one", lit(1)) \
.withColumn("count", sum(col("temp_one")).over(anc_ref_window)) \
.drop("temp_one") \
.filter(col("count") < 5) \
.drop("count") \
.show()
这给出了以下结果:
col1 | col2 | col3
b | titi | 4
b | titi | 8
问题
1-这是解决问题的正确方法吗?
2 - 我怎样才能得到预期的输出?使用我的 pyspark 版本(2.1.0),似乎没有像select distinct col1,col2
我通过 Impala 所做的那样的机制(例如)。
编辑:
col3 中的输出值对我来说无关紧要。
解决方案
另一种方法:
df_lessthan5 = df.groupBy(col("col1")).count() \
.filter(col("count") < 5) \
.drop(col("count"))
df_distinct = df.drop(col("col3")).distinct()
result = df_distinct.join(df_lessthan5, ['col1'], 'inner')
结果 :
result.show()
+----+----+
|col1|col2|
+----+----+
| b|titi|
+----+----+
如果与窗口操作相比,性能明智:
如果您确定您的窗口列 (col1) 没有高度倾斜,那么它会稍微好一些或与此 GroupBy 解决方案相当。
但是,如果您col1
的偏斜度很高,那么它将无法正确并行化,并且必须由 1 个任务完成所有主要操作。在这种情况下,您应该选择 groupBy + join
推荐阅读
- python - SyntaxError - “unindent 不匹配任何外部缩进级别”
- ruby - 如何将包含在另一个哈希中的数组中的多个哈希转换为 Ruby 中的有组织的字符串?
- graphql - 对象属性更新上graphql突变的最佳设计模式?
- css - 半星未正确定位
- python - Pyspark - 用不同的列值替换列中的空值
- github - 使用第三方 GitHub 源提供程序为 AWS Pipeline 保留 git 操作
- python - 使用 google colab 运行时运行 jupyter notebook 会引发错误
- python - Django TypeError 'dict' 对象不可调用
- boolean - 在方案中返回真或假 (#t & #f)
- android - 条目中的显示/隐藏图标未显示