pyspark - Spark SQL 库
问题描述
我们刚刚有人向我们声称,由于可靠性,我们应该避免在 Databricks 中使用 Spark SQL 库。我从来没有遇到过使用图书馆的问题(尽管我仍然在火花/Databricks 方面处于新手区),任何人都可以澄清或者他们是否试图引导我们走上花园小路?
解决方案
Spark SQL 是用于结构化数据处理的 Spark 模块。它提供了一种称为 DataFrames 的编程抽象,也可以充当分布式 SQL 查询引擎。它基于Shark SQL AmpLab 项目,并被用作 Apache Spark 模块。
Spark SQL 还包括基于成本的优化器、列式存储和代码生成,以加快查询速度。同时,它使用 Spark 引擎扩展到数千个节点和数小时的查询,提供完整的中间查询容错,而不必担心使用不同的引擎来处理历史数据。
因此,不要担心在您的项目中使用它。这是一个高度成熟且经过实战考验的库。
推荐阅读
- validation - MiB 到 GB 的转换
- angular - 在 program.d.ts 中找不到模块“路径”
- jquery - jQuery - e.stopPropagation() 在动态内容上取消 e.preventDefault()
- c# - 序列化的动态属性名称
- ip-camera - Onvif IP 摄像机的 PTZ
- python - 我有一些列表,我已经合并了它们,但是我怎样才能按降序排列值并将其作为 STD 呢?
- sql - SQL JOIN COUNT 和 GROUP BY
- python - 如何在 Kafka 中发布字典?
- java - Generate classes from Postgress database with multiple schemas using Cayenne
- cron - crontab 重启作业重启多次而不是一次