apache-spark - Spark SQL 限制与 Hive SQL 限制之间的区别
问题描述
在 Hive 中,如果我们调用 limit 子句,它将给出更快的响应。如果我们在 Spark SQL 中运行,同样的事情会花费更多时间。能否请您深入解释一下?
在蜂巢
SELECT * FROM employee LIMIT 10;
在 Spark SQL 中,
spark.sql("SELECT * FROM employee LIMIT 10").show()
限制查询将如何用于分区表?
解决方案
因为 Spark SQL 不是从头开始开发的,所以他们采用了 Hive 并将其与 spark 集成。现在,当您使用 Hive 运行查询时,它是 Hive 本地的,并且所有序列化和反序列化库仅用于 Hive,但在火花的情况下,它将使用具有一些开销的 Java serd。
推荐阅读
- javascript - Highmaps - 更改为 mapbubble
- javascript - 异步等待无法正常工作
- r - ggplot2饼图,不出现数字
- json - firebase 返回的未知数据格式
- java - 如何在 RecyclerView 顶部默认启用新数据显示?
- php - XAMPP:作曲家返回错误而不是创建新的laravel项目
- spring - 如何在 YML 文件 spring boot 中配置 SSL mongodb 连接?
- ios - 查看在 iPhone plus 型号上无法正确显示
- android - 绑定的服务方法可以在 Activity 中访问,即使在它被取消绑定和停止之后
- python - 在 PyCharm 中添加代码模板 - 可以吗?