c++ - 打开 parquet 目录 [arrowcpp]
问题描述
我正在尝试打开一个 hive-partitioned parquet,它本质上是一个嵌套目录,底层有许多小 parquet 片段。使用 Python 时(使用pyarrow
),我可以只read_table
在名称末尾有 .parquet 的顶级目录中使用,一切都会自动处理。如果我只使用 C++ 中的一个文件,我可以使用一个std::shared_ptr<arrow::io::ReadableFile>
实例来读取它,但它当然不适用于目录。
基本上,我想找到一组工具,起点标记为?以下:
蟒蛇:
打开单个文件->pyarrow.parquet.read_table
打开目录(分区数据集) ->pyarrow.parquet.ParquetDataset
C++:
打开单个文件->std::shared_ptr<arrow::io::ReadableFile>
打开目录(分区数据集) -> ?
解决方案
推荐阅读
- java - 通过多线程读取大文件和进程
- vba - 运行时错误“91”:对象变量或未设置块变量目录邮件合并
- spring-boot - 如何将一个 Spring Boot 应用程序的引用添加到另一个 Spring Boot 应用程序
- reactjs - 我可以使用 Hooks 发布库吗?
- esp8266 - 是否可以使用 Millis() 函数来计算总时间?
- laravel - Eloquent 将值设置为 null
- bash - 在 BASH 中将字符串作为带有空格的参数传递
- asp.net-core - ocelot可以用来结合angular app和api还是只适合路由api?
- c# - 如何删除特定的配对标签?
- python-3.x - 如何使用 python 或 networkx 读取 .graph 文件?