python - 在python中将CSV流式传输到镶木地板
问题描述
我正在寻找从输入文件流式传输 CSV 并将相应的行写入镶木地板文件。用于此目的的常用工具是 pyarrow,他们有一种方法可以使用 . 批量执行此操作open_csv
,获取表格并pyarrow.Table
使用pyarrow.parquet.write_table
. 但是,这不适用于无法存储在内存中的大型 CSV 文件,即使是箭头的二进制格式。
open_csv
给了我们一个很棒的CSVStreamingReader,但是我们没有ParquetStreamingWriter
它需要大块的 RecordBatches。有一个RecordBatchFileWriter可以将 RecordBatches 流式传输到二进制箭头文件中,但我正在寻找镶木地板。
如果 pyarrow 中没有这样的功能,我愿意使用其他库。
解决方案
推荐阅读
- woocommerce - Woocommerce Shipping 相关查询
- python - Pandas:以编程方式为列名添加后缀,同时在 concat 之后删除常用列
- python - 将宏值传递给气流中的sql文件
- javascript - 换字方法
- javascript - 如何为动态渲染中包含的 React 组件设置动画
- python - 请帮我在这段代码中找到一个 ValueError
- node.js - 在 ubuntu 21.04 中使用 npm install pm2@latest -g 安装 pm2 时出错
- parameters - 使用自动键“WinMove”移动 chrome (.url) 但它不起作用
- xml - 如何使用来自子节点的 xslt 从 xml 中获取以下兄弟姐妹
- discord.js - 全球禁令不包括某些服务器 Discord.JS