首页 > 解决方案 > 在pyspark中,Alteryx右外自连接等于什么?

问题描述

我正在尝试迁移 pyspark 数据帧中的 alteryx 工作流,其中我在不同列(ph_id_1 和 ph_id_2)上遇到了这个右外自连接,虽然在 pyspark 中做同样的事情,但我没有得到正确的输出,已经尝试过反,左反加入。所有人都给出了相同的结果。任何建议如何以 pyspark 方式或 sql 方式进行。

试过:

df_new = df_1.join(df_2,[df_1['ph_id_1'] == df_2['ph_id_2']],how='left_anti')

, 和

df_new = df_1.filter(df_1['ph_id_1'] != df_2['ph_id_2'])

两者都给出相同的结果,与实际结果不同。

标签: pysparkdatabricksalteryx

解决方案


推荐阅读