scala - Spark [Scala]:检查较小数据帧的所有行是否存在于较大数据帧中
问题描述
我有两个 DataFrame,具有相同的架构(但 +100 列):
- 小尺寸:1000行
- 更大的尺寸:90000 行
如何检查 1 中的每一行存在于 2 中?这样做的“火花方式”是什么?我应该使用map
然后在Row
级别上处理它;或者我使用join
然后使用与小尺寸DataFrame进行某种比较?
解决方案
您可以使用except
,它返回第一个数据集中不存在于第二个数据集中的所有行
smaller.except(bigger).isEmpty()
推荐阅读
- excel - Excel VBA Application.Activeprinter 无法设置
- javascript - 如何在javascript中将对象转换为JSON?
- session - ASP.Net 核心中的空闲会话超时问题
- roomle - 如何从参数键中提取值
- r - R:计算具有组引用的行中的值之间的差异
- android - 如何在android中的ImageView上设置双击监听器?
- javascript - 使用 if else reactjs 渲染按钮
- javascript - 将数组转换为具有小写键和句子大小写值的对象
- flutter - Flutter SingleChildScrollView with Expanded
- python - AttributeError:模块'keras.utils'没有使用classification_models.keras的属性'get_file'