apache-spark - 如何掌握 Spark sql
问题描述
我是激发 sql 的新手。我发现编写逻辑复杂的 Spark 查询程序可能非常棘手。比如我知道spark sql库中的算子比较有限,所以有时候我们需要实现UDF。但是您怎么知道图书馆运营商是否可以执行某些操作?我如何知道是否有必要实施 UDF?我发现许多开发人员都能够想出优雅的 Spark 程序。你是如何掌握 Spark 的?如何使用 Spark SQL 提高我的编程能力。我应该先掌握MYSQL吗?我是一名具有软件开发背景的学生。我错过了什么?
解决方案
@年轻的 。如果您要求特定于 spark sql,那么我建议您改进 sql。尝试复杂的 sql,主题包括:GROUP BY、ALL JOINS、WINDOWING 函数等。本教程很短
https://www.techonthenet.com/sql/index.php
并介绍了 SQL。我不认为 MySql 会很重要,因为它会很庞大并且它有自己的实现和不同的逻辑。对您来说重要的是学习 ANSI SQL。您可以在称为小提琴的虚拟环境中在线练习。继承人之一:
然后你需要练习不同的 sql 问题,Hackerrank 的 SQL 练习就足够了。
之后,您应该转向 Spark SQL 并探索所有可用的功能。
推荐阅读
- html - flex容器中的img占用额外空间?
- python - “AttributeError: 'AnonymousUserMixin' 对象没有属性”删除并重新创建 SQLAlchemy 表后
- python - 如何将熊猫数据框转换为 Json?
- objective-c - 如何设置“其他链接器标志”以在 CMake 中包含 -ObjC?
- api - 如何提取或查找带有相关交易所后缀或前缀的 Trading Economics 平台股票代码列表
- flutter - 字符串列表到 StatefulWidget Flutter 列表
- swift - 领域 Swift 错误:当前不支持包含嵌入对象的循环
- r - 如何在 R Studio 中将多个条形图转换为百分比条形图
- ios - 如何使用插值字符串作为 Firebase Cloud Functions 和 Typescript 的主题名称
- javascript - 如何将一个 div 的内容放在相邻的 div 之上?