首页 > 解决方案 > 打开 parquet 目录 [arrowcpp]

问题描述

我正在尝试打开一个 hive-partitioned parquet,它本质上是一个嵌套目录,底层有许多小 parquet 片段。使用 Python 时(使用pyarrow),我可以只read_table在名称末尾有 .parquet 的顶级目录中使用,一切都会自动处理。如果我只使用 C++ 中的一个文件,我可以使用一个std::shared_ptr<arrow::io::ReadableFile>实例来读取它,但它当然不适用于目录。

基本上,我想找到一组工具,起点标记为以下:

蟒蛇

打开单个文件->pyarrow.parquet.read_table

打开目录(分区数据集) ->pyarrow.parquet.ParquetDataset

C++

打开单个文件->std::shared_ptr<arrow::io::ReadableFile>

打开目录(分区数据集) ->

标签: c++parquetapache-arrow

解决方案


推荐阅读