首页 > 解决方案 > 镶木地板文件中的python Schema不同

问题描述

我通过 dask 将一个大的 csv 文件(~20GB)转换为镶木地板格式

import dask.dataframe as dd
ddf = dd.read_csv('/storage/news_data/train_data.csv', dtype={'type': 'str'})
ddf.to_parquet('/storage/data/train/parquet')

当我试图读回它时,我收到以下错误:

ValueError: Schema in /storage/data/train/parquet/part.42.parquet was different. 
type: null
content: string
title: string

vs

type: string
content: string
title: string

我试过了,dropna()但文件太大而无法处理。

有没有办法避免这种情况?

谢谢。

标签: python-3.xparquetdask

解决方案


推荐阅读