首页 > 解决方案 > 使用 pyspark 查找表并从另一个表中获取列

问题描述

我有以下两个火花数据框,如下所示。

df1---->

ID  col1 col2
---------------
001 abd   xyz
002 eny   opl
001 uyh   ikl
003 ewr   uji
002 opl   rtn
001 jnu   wbg

df2-------->

ID col3 col4
-------------
001 acc1 jbo
002 acc1 unk
003 acc2 plo
004 acc3 edf
005 acc2 tgn
006 acc1 jhu

预期输出--->

ID  col1 col2 col3
---------------
001 abd   xyz acc1
002 eny   opl acc1
001 uyh   ikl acc1
003 ewr   uji acc3
002 opl   rtn acc1
001 jnu   wbg acc1

有人可以建议使用 pyspark 获得预期输出的解决方案吗

标签: pysparklookupusing

解决方案


左加入ID

df1.join(df2, ['ID'], 'left').drop('col4').show()
+---+----+----+----+
| ID|col1|col2|col3|
+---+----+----+----+
|001| abd| xyz|acc1|
|002| eny| opl|acc1|
|001| uyh| ikl|acc1|
|003| ewr| uji|acc2|
|002| opl| rtn|acc1|
|001| jnu| wbg|acc1|
+---+----+----+----+

推荐阅读