首页 > 解决方案 > 如何从pyspark中的多个列表制作火花数据框?

问题描述

我正在使用 pyspark 并有多个这样的列表:

A = [5, 2, 3, 24, 1, ....]
B = ["Jim", "Bob", "Tyler", ....]
C = [5, 6,5, 5, 5, ....]

我希望数据框有 3 列(每个列表为一列)。我怎么能用 pyspark 做到这一点?

标签: pythonapache-sparkpysparkapache-spark-sqlpyspark-sql

解决方案


@James Flanagin 产生的链接可能是最好的,但是这种方法不在那个答案中,并且在某些场景中很有用。

这是我创建 pyspark 数据框的首选方式。在对特定数据进行单元测试时特别有用。

注意嵌套Row对象的使用。

from pyspark.sql import Row

df =spark.sparkContext.parallelize([
            Row(user_jid='ryan_123',
                timestamp="2018-08-01T00:00:00.111Z",
                common_data=Row(platform='android')),
        ]).toDF()

推荐阅读