首页 > 解决方案 > 用表达式按计数分组

问题描述

我有一个火花数据框,其中 2 列可以代表 id: first_id, second_id
我想计算分组所在的行:

a.first_id = b.first_id OR a.second_id = b.second_id

我找不到这样的例子,我知道问题在于分组键不是确定性的(2 个不相关的行可能最终在同一个组中,因为有第三行连接它们)。我的问题是:

  1. 数学上解决这个问题的算法是什么?(图形查询?还有别的吗?)
  2. 是否有火花实现?

标签: apache-sparkgraph

解决方案


推荐阅读