python-3.x - 镶木地板文件中的python Schema不同
问题描述
我通过 dask 将一个大的 csv 文件(~20GB)转换为镶木地板格式
import dask.dataframe as dd
ddf = dd.read_csv('/storage/news_data/train_data.csv', dtype={'type': 'str'})
ddf.to_parquet('/storage/data/train/parquet')
当我试图读回它时,我收到以下错误:
ValueError: Schema in /storage/data/train/parquet/part.42.parquet was different.
type: null
content: string
title: string
vs
type: string
content: string
title: string
我试过了,dropna()
但文件太大而无法处理。
有没有办法避免这种情况?
谢谢。