dataframe - 加入spark数据帧时如何添加多个条件
问题描述
我试过的代码。它不工作。
df_join = df1.join(df2, df1.name == df2.name & df1.no == df2.no).drop("id")
当我搜索其他方法时,我只找到了 spark.sql 方法
解决方案
你可以像下面这样
df_join = df1.join(df2, (df1.name == df2.name) & (df1.no == df2.no), how='inner')
这应该可以解决您的问题
推荐阅读
- kubernetes - AWS EKS 组 NLB 作为 ALB,但具有不同的端口
- javascript - Gatsby 构建失败,因为 postcss 和 css-minimizer-webpack-plugin 上的 CSS minimzer 出现“未知单词”错误
- haskell - 值在 Haskell 中被丢弃
- c++ - 没有 RTTI 的内存高效 dynamic_cast
- r - 如何对一个数据集中的缺失数据进行 wilcoxon 符号秩检验
- django - 您如何控制模型中存储的语言?
- android-source - 如何使用 Android.bp 解决依赖项缺少的变体 arch:common?
- c# - C# - 检查句柄是否处于活动状态
- scala - 如何防范“选项”论点?
- r - 如何解决数据集变量的问题