pyspark - 使用 pyspark 查找表并从另一个表中获取列
问题描述
我有以下两个火花数据框,如下所示。
df1---->
ID col1 col2
---------------
001 abd xyz
002 eny opl
001 uyh ikl
003 ewr uji
002 opl rtn
001 jnu wbg
df2-------->
ID col3 col4
-------------
001 acc1 jbo
002 acc1 unk
003 acc2 plo
004 acc3 edf
005 acc2 tgn
006 acc1 jhu
预期输出--->
ID col1 col2 col3
---------------
001 abd xyz acc1
002 eny opl acc1
001 uyh ikl acc1
003 ewr uji acc3
002 opl rtn acc1
001 jnu wbg acc1
有人可以建议使用 pyspark 获得预期输出的解决方案吗
解决方案
左加入ID
:
df1.join(df2, ['ID'], 'left').drop('col4').show()
+---+----+----+----+
| ID|col1|col2|col3|
+---+----+----+----+
|001| abd| xyz|acc1|
|002| eny| opl|acc1|
|001| uyh| ikl|acc1|
|003| ewr| uji|acc2|
|002| opl| rtn|acc1|
|001| jnu| wbg|acc1|
+---+----+----+----+
推荐阅读
- java - java——使用AVL树的字典
- sql - SQL。标题有问题。SQLCODE=-206,SQLSTATE=42703,驱动程序=4.26.14
- javascript - 如何在 ReactJS 中定义变量并插入 map 函数?'函数未定义 no-undef
- javascript - 存储小数据 .json
- flutter - Flutter:TextFormField和RaisedButton对齐在同一行
- django - Django 登录 'NoneType' 对象没有属性 'append'
- javascript - 如何在 Typescript 中为数组指定扩展方法
? - reactjs - DOM 转换为字符串
- c# - 使用 'k_BackingField' 会导致版本兼容性问题吗?
- flutter - 构建函数返回 null。颤振应用