apache-spark - 我们什么时候应该使用 Spark-sql,什么时候应该使用 Spark RDD
问题描述
在哪种情况下我们应该更喜欢 spark RDD 来编写解决方案,在哪种情况下我们应该选择使用 spark-sql。我知道 spark-sql 提供更好的性能,并且它最适合结构和半结构数据。但是在 spark Rdd 和 spark-sql 之间选择时,我们还需要考虑哪些其他因素。
解决方案
我发现使用 DF 比 DS 更容易使用 - 后者仍然需要开发恕我直言。对 pyspark 的评论确实仍然相关。
RDD 仍然方便 zipWithIndex 将 asc 的连续序列号放在项目上。
DFs / DSs 有一个柱状存储并且有更好的催化剂(优化器)支持。
此外,RDD 的一些事情可能会很痛苦,例如如果需要 JOIN 超过 2 个表,则需要键、值和多步连接。他们是遗产。问题是互联网充满了遗产,因此 RDD 爵士乐。
推荐阅读
- django - LANGUAGE_SESSION_KEY 不是英文时,Django 表单无效
- javascript - Axios Error 401 (Unauthorized) 尝试获取 api 时出错
- javascript - 如何使用仅包装我的 JavaScript 代码的 npm 包?
- azure-object-anchors - Azure 对象锚点 - Azure 对象锚点支持哪些 3D 模型格式?
- octave - I want to stop the code when x is equal to 1
- shell - shell脚本读取一行并逐行处理
- python-3.x - Python - 即使存在也未检测到网络钓鱼数据集文件
- macos - 如何在文件中的任何 `{` 和 `:` 字符中添加换行符
- python - Pycharm 中的解释器设置存在问题
- c# - c# 10000 x 10000 矩阵乘法