scala - 在 SPARK SQL 中读取分区的 HIVE 表

我正在尝试读取具有 2 年数据的 HIVE 表，并且它在当天进行分区，即使在过滤器应用了 6 个月的数据后，通过 SPARK-SQL 读取它也需要 10 多分钟。

知道如何改进，我尝试过在 Hive QL 中使用 DISTRIBUTE BY 子句

标签： scalaapache-sparkhadoopapache-spark-sql

您可以通过设置属性启用分区修剪：

spark.sql.hive.metastorePartitionPruning=true

这将过滤分区