pandas - 如何使用 pyarrow 将 pandas DataFrame 编写为包含日期的 Parquet 2.0?
问题描述
我们想DataFrame
通过 pyarrow 将 pandas 写入 Parquet 2.0(即时间戳为 int64)。DataFrame
包含时间戳。输出 Parquet 应该像 Spark 一样“调味”。正在通过DataFrame
投射时间戳pandas.to_datetime
。一个表是这样构造的:table = pyarrow.Table.from_pandas(dataframe)
. 最后该pyarrow.parquet
模块用于写表:pyarrow.parquet.write_table(table, 'foo.parquet', flavor='spark', compression='SNAPPY')
. 生成的 Parquet 使用已弃用的 int96 格式。那么使用这些工具强制转换为 Parquet 2.0 的正确方法是什么?
解决方案
推荐阅读
- json - 如何将 google-font 导入 powerBI 以用作主题。主题是一个 JSON 文件
- java - Android Studio - 如何删除布局上方的空白
- javascript - 将 base64 数据保存到变量中
- go - 寄存器类型后Gob解码无法解码接口
- powershell - 组策略问题
- google-apps-script - 尝试使用可变行和固定列号时,Google Script 中的设置值不起作用
- java - 启用proguard时androidTest中没有静态方法deleteRecursively(Ljava/io/File;)
- php - PHP 连接类
- php - 对第 0 列数据的数据表搜索不在工具提示上
- c# - 为什么没有加载引导程序快速安装包