scala - 在 SPARK SQL 中读取分区的 HIVE 表
问题描述
我正在尝试读取具有 2 年数据的 HIVE 表,并且它在当天进行分区,即使在过滤器应用了 6 个月的数据后,通过 SPARK-SQL 读取它也需要 10 多分钟。
知道如何改进,我尝试过在 Hive QL 中使用 DISTRIBUTE BY 子句
解决方案
您可以通过设置属性启用分区修剪:
spark.sql.hive.metastorePartitionPruning=true
这将过滤分区
推荐阅读
- vue.js - 在 Vuex 模块中添加一个复杂的对象,该对象在内部管理其状态
- python - 我收到此错误 SyntaxError: 'break' outside loop
- javascript - 过滤结果页面上的响应结果
- css - Bootstraps css 样式未在 Angular 中应用或覆盖
- python - 如何从格式不佳的 CSV 中提取数据框
- javascript - 反应颜色无法读取未定义的属性“值”
- elasticsearch - 如何在本地重用搜索结果来创建新索引?
- android - Android Lollipop 没有改变 RatingBar 颜色
- python - Pyodbc 获取记录时速度慢
- kubernetes - 入口控制器 pod 未启动