首页 > 解决方案 > PySpark 时间戳格式

问题描述

我有带有日期字段的 csv 文件。这是该字段的一个示例值:-2020-05-25 17:00:27

我正在使用以下代码。由于某种原因,日期字段仍然以字符串形式出现。

df = (spark.read
             .format("csv")
             .option("header","true")
             .option("inferSchema","true")
             .option("timestampFormat","yyyy-MM-dd HH:mm:ss")
             .load(file)
)

标签: pythonpyspark

解决方案


不知道为什么你得到一个字符串。但是您可以在阅读以下内容后将日期字段转换为时间戳df

df = df.withColumn('date_field', col('date_field').cast("timestamp"))

推荐阅读