首页 > 解决方案 > PySpark 文档的 DataFrames df、df2、df3 等在哪里定义?

问题描述

在 PySpark 文档中,我看到了许多使用示例 DataFrame 的示例,例如df4 此处

它们在哪里定义?我想完整地看到它们以更好地理解文档。

标签: pyspark

解决方案


它们在_test()方法中定义Class GroupedData(...)

在此处输入图像描述

from pyspark.sql import Row

df4 = sc.parallelize([Row(course="dotNET", year=2012, earnings=10000),
                                   Row(course="Java",   year=2012, earnings=20000),
                                   Row(course="dotNET", year=2012, earnings=5000),
                                   Row(course="dotNET", year=2013, earnings=48000),
                                   Row(course="Java",   year=2013, earnings=30000)]).toDF()

推荐阅读