apache-spark - 我们什么时候应该使用 Spark-sql，什么时候应该使用 Spark RDD

在哪种情况下我们应该更喜欢 spark RDD 来编写解决方案，在哪种情况下我们应该选择使用 spark-sql。我知道 spark-sql 提供更好的性能，并且它最适合结构和半结构数据。但是在 spark Rdd 和 spark-sql 之间选择时，我们还需要考虑哪些其他因素。

标签： apache-sparkpysparkapache-spark-sqlrdd

我发现使用 DF 比 DS 更容易使用 - 后者仍然需要开发恕我直言。对 pyspark 的评论确实仍然相关。

RDD 仍然方便 zipWithIndex 将 asc 的连续序列号放在项目上。

DFs / DSs 有一个柱状存储并且有更好的催化剂（优化器）支持。

此外，RDD 的一些事情可能会很痛苦，例如如果需要 JOIN 超过 2 个表，则需要键、值和多步连接。他们是遗产。问题是互联网充满了遗产，因此 RDD 爵士乐。