scala - 比较两个火花数据框列并检查另一个数据框中列中的每个字符串以生成新列
问题描述
我有两个巨大的 spark 数据框,一个有 50k 行,另一个有 60k。我正在尝试将每个列字符串与其他数据框列进行比较,并生成带有备注条件的新数据框。如果 df1 中的列字符串存在于 df2 中,它将被重复备注。
df1
colA colB
A d4f488bef2d2e25371caecb6a505d69f
B c8a91953fc52ecdec31ac19c61538aca
C 62026fd921133e434d860591fc03f66a
D e88480226d3b7e791f6e861c30399fb5
E 8335195031ecfee8f979247c6e7d68cb
df2
ColA ColB
W 411c78854c9cbcb89a02f53c4b6bca59
X 0bfeb09d6cfb26fc9c618b4cbdfadee6
C 62026fd921133e434d860591fc03f66a
E 8335195031ecfee8f979247c6e7d68cb
Expected output : df3
ColA ColB Remark
A d4f488bef2d2e25371caecb6a505d69f old
B c8a91953fc52ecdec31ac19c61538aca old
D e88480226d3b7e791f6e861c30399fb5 old
W 411c78854c9cbcb89a02f53c4b6bca59 new
X 0bfeb09d6cfb26fc9c618b4cbdfadee6 new
C 62026fd921133e434d860591fc03f66a duplicate
E 8335195031ecfee8f979247c6e7d68cb duplicate
解决方案
推荐阅读
- parallel-processing - 使用 MPI_IN_PLACE 时 MPI_Ineighbor_alltoall 出错
- c# - C# Asp.Net MVC 在接口上继承抽象类方法
- spring-boot - 使用 Kafka / Spring Boot 发送对象
- python - 如何在python中使用多处理为变量分配新值
- c# - 用于创建非对称密钥对的 Bouncy Castle API
- delphi - Delphi TCPClient 从 TCPServer 读取字符串
- java - 如何在一行中输入3个整数
- c# - 如何在 MVC 视图中的 Razor 条件中编写 HTML。?
- mongodb - Symfony - Mongodb - 求和和分组
- sourcegraph - 如何在 Sourcegraph 上按文件类型过滤?