python - PyArrow / Dask to_parquet 分区所有空列
问题描述
在将 Dask 数据帧分区写入 parquet 时,我注意到 reading_parquet 在元数据/模式冲突时失败。这是因为在某些分区中,列完全为 null / np.nan,而在其他分区中,它们填充了值。
事先我已经转换了我的分区的数据类型:
df = df.astype(dtypes)
PyArrow 无法读取我的分区镶木地板文件,因为只有空值的列被重新分配了数据类型“空”。我该如何解决这个问题?一些分区的列全部为空,而在其他分区中,它们不完全为空。
列的数据类型是整数、浮点数或字符串(对象)。
解决方案
我建议在 Dask 或 Arrow 问题跟踪器上提出问题
推荐阅读
- css - flex 容器的子级超过父级
- javascript - Django 播放音频文件的问题
- android - Android Studio,创建谷歌地图应用程序时出现问题
- if-statement - 如果值为 0,则跳过 VBA 宏
- google-sheets - 谷歌表格查询/数组
- python - 在每次测试之前在模拟中使用的数据类中设置初始值
- notifications - 如何修改我的谷歌日历的默认通知?
- julia - <: 在朱莉娅中是什么意思?
- javascript - 访问 BootstrapVue 内部数据
- mailchimp - 每次有人通过我的 MailChimp 表单注册时,我如何才能收到通知?