python - PySpark 时间戳格式
问题描述
我有带有日期字段的 csv 文件。这是该字段的一个示例值:-2020-05-25 17:00:27
我正在使用以下代码。由于某种原因,日期字段仍然以字符串形式出现。
df = (spark.read
.format("csv")
.option("header","true")
.option("inferSchema","true")
.option("timestampFormat","yyyy-MM-dd HH:mm:ss")
.load(file)
)
解决方案
不知道为什么你得到一个字符串。但是您可以在阅读以下内容后将日期字段转换为时间戳df
:
df = df.withColumn('date_field', col('date_field').cast("timestamp"))
推荐阅读
- python - AttributeError:“列表”对象没有属性“拆分”vcf
- python - 如果它们出现在一年而不是下一年并再次出现,我如何将相似的名称与给定的行匹配?
- aws-lambda - 如何下载 AWS Lambda 层
- python - 如何在 Django 中动态生成页面?
- angular - 如何使子路由在 AngularDart 中工作?
- reactjs - useState() 没有从事件处理程序更新状态?
- julia - 有没有办法在 Julia 中强制使用隐藏的默认构造函数?
- ruby-on-rails - Rails:通过belongs_to查询has_one在查询中添加PK null
- python - 来自 XYZ csv 格式的栅格
- dynatrace - 来自 Dynatrace 的 /etc/passwd(或任何 xyz 文件)文件更改警报