首页 > 解决方案 > 将包含日期的列表添加到 PySpark Dataframe

问题描述

我创建了一个日期列表,我想用 StructType = StringType 添加到 Spark 数据框中。但是,下面的最终 df 仅包含空值。

#Step 1:创建数据范围并放入列表

start_date = '2020-05-01'
end_date = '2020-05-10'

my_dates = pd.date_range(start_date,end_date).tolist()

#Step 2:将列表添加到 Spark Df

cSchema = StructType([StructField("date", ArrayType(StringType()))])

df2 = spark.createDataFrame(my_dates,schema,cSchema)

标签: pythonapache-sparkpysparkapache-spark-sql

解决方案


也许您可以尝试以下方法:

start_date = '2020-05-01'
end_date = '2020-05-10'

my_dates = pd.date_range(start_date,end_date).tolist()

new_df = spark.createDataFrame([(value,) for value in mydates], ['date'])
new_df.show()

推荐阅读