java - spark如何加入数据集
问题描述
我想重写这个伪 sql 代码来激发 sql 或 java
select a, collect_list(b)
from Authors a left join Books b
group by a
但似乎在 sql 中我只能对列进行操作,而不是如何处理它。除了有几个问题:
- 是否更喜欢使用 sql 而不是 java(scala 不是一个选项)?最终我将使用火花和卡夫卡。
- 我应该使用
Dataset<Author>
还是Dataset<Row>
可以?
编辑:为了更准确地了解目标。我有一些数据集,例如 Persons、Phones、Addresses 等。实际上会有 kafka 流。关系是可选的一对多我需要通过 person.id 加入这些数据集以收集所有相应的数据(电话、地址)并可能使用休眠将所有内容保存到 db
解决方案
推荐阅读
- django - 如何从 Django 中的组中删除所有权限
- swift - 带有 Core Data 的 SwiftUI 中的 @FetchRequest 注释
- mysql - 在 MySQL 中,当我的 where 子句中有“in”条件时,我可以使用索引吗?
- node.js - package-lock.json 的问题
- excel - Record Macro 如何在 New Module 而不是 Sub 中创建代码
- python-3.x - 使用 Gauge 实现 ProgressDialog
- amazon-s3 - 使用 PGP 加密文件并上传到 S3 AWS 的内容
- excel - 我作为月度订阅者运行 Excel 2019。我的 F 键都没有做你们说他们应该做的事!建议?
- php - 来自 mobile.de 的 SimpleXMLElement 和 XML 数据的问题
- aix - AIX :- 在基于 Clang 的前端中调用共享库函数时出现分段错误