首页 > 解决方案 > 如何在 Databricks 的 PySpark 中使用在 Scala 中创建的 DataFrame

问题描述

我的 Databricks 笔记本使用 Python。笔记本中的一些代码是用 Scala 编写的(使用 %scala),其中之一是用于创建数据帧。

如果我再次使用 Python/PySpark(默认模式),我如何使用/访问在 scala 模式下创建的这个数据框?

甚至可能吗?

谢谢

标签: pythonscalapysparkdatabricks

解决方案


您可以通过 SparkSQL 中的临时表访问以一种语言和另一种语言创建的 DataFrame。

例如,假设您在 Scala 中有一个名为scalaDF. 您可以创建一个临时视图并使其可供 Python 单元访问,例如:

scalaDF.createOrReplaceTempView("my_table")

然后在 Python 单元中,您可以运行

pythonDF = spark.sql("select * from my_table")

pythonDF.show()

这同样适用于在这些语言和 R 之间传递数据帧。常见的构造是 SparkSQL 表。


推荐阅读