首页 > 解决方案 > PyArrow / Dask to_parquet 分区所有空列

问题描述

在将 Dask 数据帧分区写入 parquet 时,我注意到 reading_parquet 在元数据/模式冲突时失败。这是因为在某些分区中,列完全为 null / np.nan,而在其他分区中,它们填充了值。

事先我已经转换了我的分区的数据类型:

df = df.astype(dtypes)

PyArrow 无法读取我的分区镶木地板文件,因为只有空值的列被重新分配了数据类型“空”。我该如何解决这个问题?一些分区的列全部为空,而在其他分区中,它们不完全为空。

列的数据类型是整数、浮点数或字符串(对象)。

标签: pythondaskparquetpyarrow

解决方案


我建议在 Dask 或 Arrow 问题跟踪器上提出问题


推荐阅读