python - 为什么 pandas 使用 numpy 中的“NaN”,而不是它自己的 null 值?
问题描述
这是一个有点宽泛的话题,但我会尝试将其缩减为一些具体的问题。
在开始回答关于 SO 的问题时,我发现自己在制作玩具数据时有时会遇到这样的愚蠢错误:
In[0]:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = np.nan
Out[0]:
NameError: name 'np' is not defined
我已经习惯了自动导入numpy
,pandas
这在实际代码中通常不会发生。但是,它确实让我想知道为什么pandas
没有它自己的值/对象来表示空值。
我最近才意识到你可以只使用 PythonNone
来解决类似的情况:
import pandas as pd
df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = None
哪个按预期工作并且不会产生错误。但我觉得我看到的 SO 约定是使用np.nan
,人们np.nan
在讨论空值时通常指的是(这也许是我没有意识到None
可以使用的原因,但也许那是我自己的特质) .
简要地研究一下,我现在已经看到自 1.0.0 以来pandas
确实具有价值,但我从未见过有人在帖子中使用它:pandas.NA
In[0]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'values':np.random.rand(20,)})
df['above'] = df['values']
df['below'] = df['values']
df['above'][df['values']>0.7] = np.nan
df['below'][df['values']<0.3] = pd.NA
df['names'] = ['a','b','c','a','b','c','a','b','c','a']*2
df.loc[df['names']=='a','names'] = pd.NA
df.loc[df['names']=='b','names'] = np.nan
df.loc[df['names']=='c','names'] = None
df
Out[0]:
values above below names
0 0.323531 0.323531 0.323531 <NA>
1 0.690383 0.690383 0.690383 NaN
2 0.692371 0.692371 0.692371 None
3 0.259712 0.259712 NaN <NA>
4 0.473505 0.473505 0.473505 NaN
5 0.907751 NaN 0.907751 None
6 0.642596 0.642596 0.642596 <NA>
7 0.229420 0.229420 NaN NaN
8 0.576324 0.576324 0.576324 None
9 0.823715 NaN 0.823715 <NA>
10 0.210176 0.210176 NaN <NA>
11 0.629563 0.629563 0.629563 NaN
12 0.481969 0.481969 0.481969 None
13 0.400318 0.400318 0.400318 <NA>
14 0.582735 0.582735 0.582735 NaN
15 0.743162 NaN 0.743162 None
16 0.134903 0.134903 NaN <NA>
17 0.386366 0.386366 0.386366 NaN
18 0.313160 0.313160 0.313160 None
19 0.695956 0.695956 0.695956 <NA>
因此,对于数值而言,这些不同的空值之间的区别似乎并不重要,但它们对于字符串的表示方式不同(也许对于其他数据类型?)。
我的问题基于上述:
- 使用
np.nan
(而不是None
)来表示 中的空值是惯例pandas
吗? - 为什么在
pandas
其生命周期的大部分时间(直到去年)都没有自己的空值?添加的动机是什么? - 如果您可以在一
Series
列或一列中有多种类型的缺失值,它们之间有什么区别吗?为什么它们的表示方式不同(与数字数据一样)?
我完全预料到我可能对事物的解释以及和之间的区别有缺陷pandas
,numpy
所以请纠正我。
解决方案
is的一个主要依赖项pandas
numpy
,换句话说,pandas 是建立在 numpy 之上的。因为 pandas 继承并使用了许多 numpy 方法,所以保持一致是有意义的,也就是说,缺失的数字数据用np.NaN
.
(这种建立在 numpy 上的选择也会对其他事情产生影响。例如,日期和时间操作是建立在np.timedelta64
and np.datetime64
dtypes 上的,而不是标准datetime
模块上。)
你可能不知道的一件事是它numpy
一直在那里pandas
import pandas as pd
pd.np?
pd.np.nan
尽管您可能认为这种行为可能会更好,因为您不导入 numpy,但不鼓励这样做,并且在不久的将来会弃用,以支持直接导入numpy
FutureWarning:pandas.np 模块已弃用,将在未来版本中从 pandas 中删除。而是直接导入numpy
在 pandas中使用np.nan
(而不是None
)表示空值是惯例吗?
如果数据是数字,那么是的,您应该使用np.NaN
. None
需要 dtypeObject
和 pandas,您希望将数字数据存储在数字 dtype 中。pandas
通常会在创建或导入时强制转换为正确的 null 类型,以便它可以使用正确的dtype
pd.Series([1, None])
#0 1.0
#1 NaN <- None became NaN so it can have dtype: float64
#dtype: float64
为什么 pandas 在其生命周期的大部分时间里(直到去年)都没有自己的 null 值?添加的动机是什么?
pandas
没有它自己的 null 值,因为它np.NaN
在大多数情况下都适用。但是,pandas
由于缺少数据是很常见的,因此文档的整个部分都专门用于此。NaN
,作为浮点数,不适合整数容器,这意味着任何缺少数据的数字系列都将向上转换为float
。由于浮点数学,这可能会成为问题,并且某些整数不能用浮点数完美表示。结果,任何连接merges
都可能失败。
# Gets upcast to float
pd.Series([1,2,np.NaN])
#0 1.0
#1 2.0
#2 NaN
#dtype: float64
# Can safely do merges/joins/math because things are still Int
pd.Series([1,2,np.NaN]).astype('Int64')
#0 1
#1 2
#2 <NA>
#dtype: Int64
推荐阅读
- python - 在 Visual Studio Code 的另一个目录中调试 python 模块
- r - 如何对动物园对象列表中的匹配元素求和?
- acumatica - 您可以通过对基于 REST 的端点的一次调用来创建多个客户吗?
- angular - Angular 表单 - 在子组件模板中访问 FormArray
- angularjs - 可扩展网格未与父网格对齐
- python - 使用 del __builtins__.__dict__["__import__"] 删除后如何恢复 __import__
- python-3.x - 使用模块请求登录到具有 2 个不同输入页面的网站
- r - 使用来自另一个 xts 对象的数据更新一个 xts 时间序列对象
- c# - Unity - 拖动停止后继续物体惯性?
- hyperledger-fabric - 如果使用 docker swarm 部署网络,如何确保超级账本结构中的数据持久性?