首页 > 解决方案 > 在 SPARK SQL 中读取分区的 HIVE 表

问题描述

我正在尝试读取具有 2 年数据的 HIVE 表,并且它在当天进行分区,即使在过滤器应用了 6 个月的数据后,通过 SPARK-SQL 读取它也需要 10 多分钟。

知道如何改进,我尝试过在 Hive QL 中使用 DISTRIBUTE BY 子句

标签: scalaapache-sparkhadoopapache-spark-sql

解决方案


您可以通过设置属性启用分区修剪:

spark.sql.hive.metastorePartitionPruning=true

这将过滤分区


推荐阅读