首页 > 解决方案 > 镶木地板文件格式是否必须始终保存模式(带有数据类型)和标头?

问题描述

将数据保存为 Parquet 文件格式时 - 具有数据类型的 Schema 是否也必须保存在 Parquet 文件格式中?(或者可以跳过)

另外 - 是否也需要保存标题?(或者可以跳过)

谢谢。

标签: pythonfileapache-sparkparquet

解决方案


您将始终需要 Parquet 文件的架构,因为它们是二进制的,没有架构就无法被阅读器反序列化。

并不是说 Parquet 没有真正的页眉而是页脚。所有元数据(包括架构)都保存在文件末尾。Parquet 文件的结构见下图:

Parquet文件格式结构

资料来源:https ://parquet.apache.org/documentation/latest/


推荐阅读