python - 使用 Pandas 与 Koalas notna() 的不同结果
问题描述
dtype={"ColA": str}
----------------------------------------------
use_koalas: True
df:
ColA ColB ColC
0 A 0 0.00
1 None 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df['ColA'][1]): <class 'NoneType'>
df[df.notna()]:
ColA ColB ColC
0 A 0 0.00
1 None 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df['ColA'][1]): <class 'NoneType'>
df = df[df.notna()].astype(dtype)
df:
ColA ColB ColC
0 A 0 0.00
1 None 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df['ColA'][1]): <class 'NoneType'>
----------------------------------------------
use_koalas: False
df:
ColA ColB ColC
0 A 0 0.00
1 None 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df['ColA'][1]): <class 'NoneType'>
df[df.notna()]:
ColA ColB ColC
0 A 0 0.00
1 NaN 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df[df.notna()]['ColA'][1]): <class 'float'>
df = df[df.notna()].astype(dtype)
df:
ColA ColB ColC
0 A 0 0.00
1 nan 1 12.30
2 C 2 22.20
3 D 1 3.14
type(df['ColA'][1]): <class 'str'>
----------------------------------------------
我已经为我的 dtype 而不是 str 使用“string”而搞砸了,但有一些下游影响。这是在一个非常大的数据集上,所以理想情况下我不会使用 mask 函数。那么为什么 pandas 和 koalas 数据框/函数的行为会有所不同呢?
解决方案
推荐阅读
- python - 从日期字符串中删除时间
- django - (Angular + Django REST)抑制浏览器身份验证对话框?
- sapui5 - SAPUI5 - 清除 ui.table 中输入字段的 valueState
- java - 该功能在扫描仪上不超过 10 个字母
- r - 在R闪亮中扩展侧边栏的长度时如何保持侧边栏宽度不变?
- r - 用ggplot2中的变化值注释分数
- stenciljs - 如何在 StencilJS 中启动应用程序之前调用 mirage 服务器
- android - 在 REAL DEVICE 上启动仪器测试会导致等待进程出现超时 - MacBook Air M1
- c++ - 如何将具有未知原型的成员函数传递给 C++ 中的类?
- javascript - TypeError:this.productService.getHomeData 不是 HomeComponent.ngOnInit 的函数