首页 > 解决方案 > 哪种方式最好读取镶木地板文件以作为 dask 数据帧处理

问题描述

我有一个包含小镶木地板文件(600)的目录,我想在这些镶木地板上进行 ETL 并将这些镶木地板合并到每个文件 128mb。什么是处理数据的最佳方式。

我应该读取 parquet 目录中的每个文件并将 concat 作为单个数据框并执行 groupBY 吗?或者向 dd.read_parquet 提供 parquet 目录名称并进行处理?

我觉得,当我逐个文件读取文件时,它会创建一个非常大的 dask 图,无法作为图像拟合。我想它也适用于这么多线程?这会导致内存错误。

哪种方式最好读取镶木地板文件以作为 dask 数据帧处理?逐个文件或提供整个目录??

标签: pythondaskparquetpyarrowdask-dataframe

解决方案


不幸的是,没有一种最佳方法可以在所有情况下读取 Parquet 文件。为了正确回答问题,您需要更多地了解您的情况。


推荐阅读