首页 > 解决方案 > 在 Spark 上打印查询 Hive 的物理计划

问题描述

我使用 hive 2.3.7 和 spark-2.0.0 作为执行引擎。我想知道如何打印物理计划,以查看例如 caclcite 选择在查询上执行的连接算法。

标签: hive

解决方案


您可以使用explain.

在 Pyspark 中:

df = df1.join(df2, 'id')
df.explain()

在 Spark SQL / Hive QL 中:

EXPLAIN SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;

查看更多详情

http://spark.apache.org/docs/latest/sql-ref-syntax-qry-explain.html

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain


推荐阅读