hive - 在 Spark 上打印查询 Hive 的物理计划
问题描述
我使用 hive 2.3.7 和 spark-2.0.0 作为执行引擎。我想知道如何打印物理计划,以查看例如 caclcite 选择在查询上执行的连接算法。
解决方案
您可以使用explain
.
在 Pyspark 中:
df = df1.join(df2, 'id')
df.explain()
在 Spark SQL / Hive QL 中:
EXPLAIN SELECT * FROM table1 JOIN table2 ON table1.id = table2.id;
查看更多详情
http://spark.apache.org/docs/latest/sql-ref-syntax-qry-explain.html
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Explain
推荐阅读
- r - 用ggplot2标记饼图问题(和chage grom text to label)
- selenium-ide - 如何在 New Selenium IDE 上从一个 .side 文件导出测试用例并导入另一个 .side 文件?
- python - 当我的 TCP 设备通过 USB 到以太网适配器连接时,我为 pyvisa 使用什么连接字符串?
- python - 让 ModalView 适合其所有内容小部件(kivy)
- git - 将本地合并提交推送到修改后的远程分支
- android - Android - 如果视图模型包含活动侦听器引用,会发生内存泄漏吗?
- javascript - 反应:作为道具的数组显示为未定义
- vb.net - 为什么将数据移动到文本字段时,索引超出了数组的范围
- azure - 为什么 AzureRmAks 在部署新的 Kubernetes 集群时找不到 SSH 密钥?
- salesforce - 如何在 Salesforce 中下载自定义对象的所有记录的所有附件?