python - 不等于函数在 PySpark 内部连接中不起作用
问题描述
我有两个数据集,我想加入并找出df1 中有多少数据与 PySpark 中 df2 中的任何数据都不匹配
我试过这段代码:
join = df1.join(df2, df1.studyid != df2.studyid, how='inner')
但是这段代码不能正常工作。
请帮我解决这个问题。有关更多信息,请在聊天中 ping 我。
谢谢
解决方案
使用leftanti
:
join = df1.join(df2, df1.studyid == df2.studyid, how='leftanti')
反连接从与右不匹配的左关系返回值。它也被称为左反连接。
更多信息:https ://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-join.html
推荐阅读
- java - 本地和远程连接池,Java DBCP
- c# - 使用 LINQ/Lambda 的 SELECT、MAX 语句的 WHERE 条件
- python - 根据另一个列表的顺序消除列表的组合
- c - std18 getpagesize:函数的隐式声明+嵌套的外部声明
- android - 按钮,不要在适配器的 recyclerview 中被点击
- sql - 行到一列
- python - 如何将模型中的数据收集到选择标签中
- delphi - 如何拒绝一个单位在 Firemonkey 中停用 Code Insigth?
- python - 要求用户填写 Rasa Chatbot 中的空位
- django - 您如何使用 ForeignKey 下拉选择的所有 Django Admin 字段,其计数超过 50 - Be ReadOnly 字段?