首页 > 解决方案 > 不等于函数在 PySpark 内部连接中不起作用

问题描述

我有两个数据集,我想加入并找出df1 中有多少数据与 PySpark 中 df2 中的任何数据都不匹配

我试过这段代码:

join = df1.join(df2, df1.studyid != df2.studyid, how='inner')

但是这段代码不能正常工作。

请帮我解决这个问题。有关更多信息,请在聊天中 ping 我。

谢谢

标签: pythonpysparkapache-spark-sql

解决方案


使用leftanti

join = df1.join(df2, df1.studyid == df2.studyid, how='leftanti')

反连接从与右不匹配的左关系返回值。它也被称为左反连接。

更多信息:https ://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-join.html


推荐阅读