java - spark如何加入数据集

我想重写这个伪 sql 代码来激发 sql 或 java

select a, collect_list(b)
from Authors a left join Books b
group by a

但似乎在 sql 中我只能对列进行操作，而不是如何处理它。除了有几个问题：

编辑：为了更准确地了解目标。我有一些数据集，例如 Persons、Phones、Addresses 等。实际上会有 kafka 流。关系是可选的一对多我需要通过 person.id 加入这些数据集以收集所有相应的数据（电话、地址）并可能使用休眠将所有内容保存到 db

标签： javaapache-spark