首页 > 解决方案 > 在python中将CSV流式传输到镶木地板

问题描述

我正在寻找从输入文件流式传输 CSV 并将相应的行写入镶木地板文件。用于此目的的常用工具是 pyarrow,他们有一种方法可以使用 . 批量执行此操作open_csv,获取表格并pyarrow.Table使用pyarrow.parquet.write_table. 但是,这不适用于无法存储在内存中的大型 CSV 文件,即使是箭头的二进制格式

open_csv给了我们一个很棒的CSVStreamingReader,但是我们没有ParquetStreamingWriter它需要大块的 RecordBatches。有一个RecordBatchFileWriter可以将 RecordBatches 流式传输到二进制箭头文件中,但我正在寻找镶木地板。

如果 pyarrow 中没有这样的功能,我愿意使用其他库。

标签: pythoncsvparquetpyarrowapache-arrow

解决方案


推荐阅读