首页 > 解决方案 > 根据 PySpark 中的条件比较两个数据帧

问题描述

我想将一个数据帧中的记录与另一个数据帧进行比较并找到匹配项,如果根据条件找到匹配项,则停止该记录的迭代并返回结果。

第一个数据框

一个 C
约翰 能源部 23
约翰 能源部 24

第二个数据框

一个 C
能源部 23
约翰 能源部 24

条件

大批 价值
[1,1,1] D
[0,1,1] F

在输出中,我想将第一个 Dataframe 的值与第二个 df 进行比较,并根据 [0,1,1] 或 [1,1,1] 之类的比较生成二进制文件,并检查条件 df 中是否存在此列表(如果存在)返回对应的值。

输出

一个 C 价值
约翰 能源部 23 F
约翰 能源部 24 D

标签: pysparkapache-spark-sqlpyspark-dataframes

解决方案


推荐阅读