首页 > 解决方案 > 在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe

问题描述

我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元中使用它。我做不到。知道怎么做吗?

标签: pythonpandaspysparkapache-zeppelin

解决方案


你可以直接使用,毕竟都是python,%pyspark只是一个python的API,用python语言使用spark,你也可以在pandas DataFrames和pyspark DataFrames之间切换:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('app_name').getOrCreate()
your_pyspark_df = spark.createDataFrame(your_pd_df)

此外,您可以使用 .toPandas() 方法返回 pandas DataFrame。


推荐阅读