首页 > 解决方案 > spark'join with condition'与'join with filter',哪个更好?

问题描述

我想根据某些条件加入两个数据框。这两种方法中哪一种具有更好的性能特征?

第一种方法

df1.join(df2, (df1("numer") === df2("numer")), "full")

第二种方法

df1.join(df2, how="full").filter(df1("numer") === df2("numer"))

标签: apache-sparkpysparkapache-spark-sql

解决方案


推荐阅读