pyspark - 什么是 Apache Spark (SQL) 中的催化剂优化器?
问题描述
我想了解更多关于 Apache PySpark (SQL) 中的 Catalyst Optimizer 的信息。是否可以在 pyspark 数据帧中使用 Catalyst Optimizer。
解决方案
使用 SQL 创建的数据帧可以利用 Spark Catalyst 框架。使用 pyspark(假设变量spark
绑定到SparkSession
),我们可以调用类似的 SQL
spark.sql(<sql>)
这将由 Catalyst 框架进行分析、优化和创建物理计划。
如果 Dataframe 是手动构建的spark.table<>.sort(<col>)
,则 Spark 催化剂不会发挥作用。如果我们想将 Catalyst 框架用于不是由元存储支持的表的数据帧,我们可以将其注册为临时表,并使用 SQL 来触发查询。
推荐阅读
- python - 为什么 Jupyter notebook 不执行所有代码行?(iPython)
- python - 使用 Tor 抓取网页时被禁止 - Selenium
- c# - 带有 Xamarin 表单的 iOS 应用程序中的 SQLite 问题
- c# - Foreach 在带有元素的非空 IEnumerable 上抛出 NullReferenceException
- ios - 无法在应用商店连接中的应用商店添加新版本
- javascript - __proto__ 是对象实例的属性还是 Object.prototype 的属性
- javascript - FCM 通知
- apache-spark - Apache kafka 没有重新平衡负载
- reactjs - React 功能组件中的 TypeScript 检查
- javascript - 立即留下一个包含 async-await 承诺的 for 循环