dataframe - 使用 Pyspark (databricks) 连接两个表和连接列
问题描述
我的数据库中有两个表。我还需要在条件table1.id = table2.id的这两个表上执行左外连接,源应该匹配
下面是我的两个源表。
表格1 :
`source id type `
eu2 10000162 N4
sus 10000162 M1
pda 10000162 XM
表 2:
`source id code1 code2`
eu2 10000162 CDNG_GRP PROB_CD
sus 10000162 AANV NW
pda 10000162 PM2 VLPD
预期输出:
source id type concat
eu2 10000162 N4 CDNG_GRP-PROB_CD
sus 10000162 M1 AANV-NW
pda 10000162 XM PM2-VLPD
我想要这个结果在 Dataframe 中。
提前致谢 !
解决方案
Spark 总是返回一个数据帧(除非指定不这样做)
试试这个:考虑到你的表已经是火花数据框
left_join = table1.join(table2, table1.id==table1.id, "leftouter")
left_join.show()
推荐阅读
- python - 无法在我的自定义数据集中训练更快的 rcnn 模型
- c++ - 具有两个未知数的线性方程的调试代码
- php - 延迟显示页面中的单个项目
- javascript - Angular - async/await Observable toPromise 更新广播新的 BehaviorSubject 数据返回 Promise
- python - 在单个图中绘制多个饼图
- node.js - 数组 .split() 方法在 Heroku 应用程序中无法正常工作
- html - 在数据库中发布获取的数据
- javascript - 创建自定义复制按钮
- javascript - 将进程插入队列以异步工作
- azure-active-directory - 使用 Azure AD 作为 G Suite 的 IdP 时,无法登录同一域的多个帐户