首页 > 解决方案 > Spark [Scala]:检查较小数据帧的所有行是否存在于较大数据帧中

问题描述

我有两个 DataFrame,具有相同的架构(但 +100 列):

  1. 小尺寸:1000行
  2. 更大的尺寸:90000 行

如何检查 1 中的每一行存在于 2 中?这样做的“火花方式”是什么?我应该使用map然后在Row级别上处理它;或者我使用join然后使用与小尺寸DataFrame进行某种比较?

标签: scalaapache-spark

解决方案


您可以使用except,它返回第一个数据集中不存在于第二个数据集中的所有行

smaller.except(bigger).isEmpty()

推荐阅读