apache-spark - 用表达式按计数分组
问题描述
我有一个火花数据框,其中 2 列可以代表 id: first_id
, second_id
。
我想计算分组所在的行:
a.first_id = b.first_id OR a.second_id = b.second_id
我找不到这样的例子,我知道问题在于分组键不是确定性的(2 个不相关的行可能最终在同一个组中,因为有第三行连接它们)。我的问题是:
- 数学上解决这个问题的算法是什么?(图形查询?还有别的吗?)
- 是否有火花实现?
解决方案
推荐阅读
- apache-spark - 如何根据spark中给定的输入文件大小计算执行器、内核和内存?
- electron - 打包后电子vue-vite不工作?
- vlang - 结构必须有一个 `next()` 方法才能成为迭代器
- c# - 在 webbrowser 中查找元素并分别在 csharp 中添加到列表框
- sql - ORA-02292: 违反完整性约束 - 找到子记录 - PLSQL
- react-hooks - 倒数计时器变为负数
- c# - 用逻辑运算符确定差异
- stored-procedures - 动态 SQL 日期标头
- java - 如何获取 log4j2 中的 trace id 和 span id,格式为 [traceId, spanId ]?
- html - 使用 flex 对齐 5 个盒子会导致间距问题