pyspark - 根据 PySpark 中的条件比较两个数据帧
问题描述
我想将一个数据帧中的记录与另一个数据帧进行比较并找到匹配项,如果根据条件找到匹配项,则停止该记录的迭代并返回结果。
第一个数据框
一个 | 乙 | C |
---|---|---|
约翰 | 能源部 | 23 |
约翰 | 能源部 | 24 |
第二个数据框
一个 | 乙 | C |
---|---|---|
简 | 能源部 | 23 |
约翰 | 能源部 | 24 |
条件
大批 | 价值 |
---|---|
[1,1,1] | D |
[0,1,1] | F |
在输出中,我想将第一个 Dataframe 的值与第二个 df 进行比较,并根据 [0,1,1] 或 [1,1,1] 之类的比较生成二进制文件,并检查条件 df 中是否存在此列表(如果存在)返回对应的值。
输出
一个 | 乙 | C | 价值 |
---|---|---|---|
约翰 | 能源部 | 23 | F |
约翰 | 能源部 | 24 | D |
解决方案
推荐阅读
- javascript - 'no-use-before-define' 出于什么目的警告声明的函数?
- java - H2 创建链接表 - 找不到驱动程序类
- sql - 如何在 SQL 中根据月份将一行拆分为 12 行?
- java - 如何使用 Student 类对象访问 Department 类的方法
- firebase - 在 Kotlin 中将长字符串转换为 Int
- java - Vaadin EntityManager NullReferenceException
- java - 如何在 CrudRepository 上使用 findAll() 返回 List 而不是 Iterable
- javascript - 在 JavaScript 中循环多维对象
- javascript - 将值从按钮传递给对话框中的方法 - React
- node.js - Angular ng new 返回包安装失败错误-缺少 compiler.umd.js