首页 > 解决方案 > 具有不同模式的镶木地板

问题描述

我的文件夹中有一个镶木地板文件列表./my_file/*.parquet。好的有一个列“date_time”,它应该是一个整数(unix 纪元时间戳)。

root
 |-- date_time: integer (nullable = true)

但其中一些有一个真正的时间戳字段。

root
 |-- date_time: timestamp (nullable = true)

问题是所有这些文件都在同一个文件夹中,当我阅读它们时,action我的数据框中的任何文件都会产生错误:

列:[date_time],预期:LongType,找到:INT96

您有什么好的方法可以轻松地将“时间戳”文件与“整数”文件分开吗?我的文件夹中有超过 30k 个文件,我只是不知道如何处理它们,因为任何操作都会产生错误。

标签: pythonapache-sparkpyspark

解决方案


推荐阅读