首页 > 解决方案 > 我们什么时候应该使用 Spark-sql,什么时候应该使用 Spark RDD

问题描述

在哪种情况下我们应该更喜欢 spark RDD 来编写解决方案,在哪种情况下我们应该选择使用 spark-sql。我知道 spark-sql 提供更好的性能,并且它最适合结构和半结构数据。但是在 spark Rdd 和 spark-sql 之间选择时,我们还需要考虑哪些其他因素。

标签: apache-sparkpysparkapache-spark-sqlrdd

解决方案


我发现使用 DF 比 DS 更容易使用 - 后者仍然需要开发恕我直言。对 pyspark 的评论确实仍然相关。

RDD 仍然方便 zipWithIndex 将 asc 的连续序列号放在项目上。

DFs / DSs 有一个柱状存储并且有更好的催化剂(优化器)支持。

此外,RDD 的一些事情可能会很痛苦,例如如果需要 JOIN 超过 2 个表,则需要键、值和多步连接。他们是遗产。问题是互联网充满了遗产,因此 RDD 爵士乐。


推荐阅读