首页 > 解决方案 > Spark SQL 库

问题描述

我们刚刚有人向我们声称,由于可靠性,我们应该避免在 Databricks 中使用 Spark SQL 库。我从来没有遇到过使用图书馆的问题(尽管我仍然在火花/Databricks 方面处于新手区),任何人都可以澄清或者他们是否试图引导我们走上花园小路?

标签: pysparkdatabricks

解决方案


Spark SQL 是用于结构化数据处理的 Spark 模块。它提供了一种称为 DataFrames 的编程抽象,也可以充当分布式 SQL 查询引擎。它基于Shark SQL AmpLab 项目,并被用作 Apache Spark 模块。

Spark SQL 还包括基于成本的优化器、列式存储和代码生成,以加快查询速度。同时,它使用 Spark 引擎扩展到数千个节点和数小时的查询,提供完整的中间查询容错,而不必担心使用不同的引擎来处理历史数据。

因此,不要担心在您的项目中使用它。这是一个高度成熟且经过实战考验的库。


推荐阅读