首页 > 解决方案 > 如何使用 pyarrow 将 pandas DataFrame 编写为包含日期的 Parquet 2.0?

问题描述

我们想DataFrame通过 pyarrow 将 pandas 写入 Parquet 2.0(即时间戳为 int64)。DataFrame包含时间戳。输出 Parquet 应该像 Spark 一样“调味”。正在通过DataFrame投射时间戳pandas.to_datetime。一个表是这样构造的:table = pyarrow.Table.from_pandas(dataframe). 最后该pyarrow.parquet模块用于写表:pyarrow.parquet.write_table(table, 'foo.parquet', flavor='spark', compression='SNAPPY'). 生成的 Parquet 使用已弃用的 int96 格式。那么使用这些工具强制转换为 Parquet 2.0 的正确方法是什么?

标签: pandasparquetpyarrow

解决方案


推荐阅读