首页 > 解决方案 > spark如何加入数据集

问题描述

我想重写这个伪 sql 代码来激发 sql 或 java

select a, collect_list(b)
from Authors a left join Books b
group by a

但似乎在 sql 中我只能对列进行操作,而不是如何处理它。除了有几个问题:

编辑:为了更准确地了解目标。我有一些数据集,例如 Persons、Phones、Addresses 等。实际上会有 kafka 流。关系是可选的一对多我需要通过 person.id 加入这些数据集以收集所有相应的数据(电话、地址)并可能使用休眠将所有内容保存到 db

标签: javaapache-spark

解决方案


推荐阅读