首页 > 解决方案 > 使用 Pyspark (databricks) 连接两个表和连接列

问题描述

我的数据库中有两个表。我还需要在条件table1.id = table2.id的这两个表上执行左外连接,源应该匹配

下面是我的两个源表。

表格1 :

`source    id        type `

  eu2   10000162      N4    
  sus   10000162      M1    
  pda   10000162      XM 

表 2:

`source   id         code1        code2`

  eu2   10000162        CDNG_GRP     PROB_CD
  sus   10000162        AANV          NW
  pda   10000162        PM2          VLPD

预期输出:

source id type concat

  eu2   10000162      N4    CDNG_GRP-PROB_CD
  sus   10000162      M1    AANV-NW
  pda   10000162      XM    PM2-VLPD

我想要这个结果在 Dataframe 中。

提前致谢 !

标签: dataframeapache-sparkpyspark

解决方案


Spark 总是返回一个数据帧(除非指定不这样做)

试试这个:考虑到你的表已经是火花数据框

left_join = table1.join(table2, table1.id==table1.id, "leftouter")
left_join.show()

推荐阅读