首页 > 解决方案 > 为什么 pandas 使用 numpy 中的“NaN”,而不是它自己的 null 值?

问题描述

这是一个有点宽泛的话题,但我会尝试将其缩减为一些具体的问题。

在开始回答关于 SO 的问题时,我发现自己在制作玩具数据时有时会遇到这样的愚蠢错误:

In[0]:

import pandas as pd

df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = np.nan

Out[0]:
NameError: name 'np' is not defined

我已经习惯了自动导入numpypandas这在实际代码中通常不会发生。但是,它确实让我想知道为什么pandas没有它自己的值/对象来表示空值。

我最近才意识到你可以只使用 PythonNone来解决类似的情况:

import pandas as pd

df = pd.DataFrame({"values":[1,2,3,4,5,6,7,8,9]})
df[df < 5] = None

哪个按预期工作并且不会产生错误。但我觉得我看到的 SO 约定是使用np.nan,人们np.nan在讨论空值时通常指的是(这也许是我没有意识到None可以使用的原因,但也许那是我自己的特质) .

简要地研究一下,我现在已经看到自 1.0.0 以来pandas 确实具有价值,但我从未见过有人在帖子中使用它pandas.NA

In[0]:

import pandas as pd
import numpy as np

df = pd.DataFrame({'values':np.random.rand(20,)})
df['above'] = df['values']
df['below'] = df['values']
df['above'][df['values']>0.7] = np.nan
df['below'][df['values']<0.3] = pd.NA

df['names'] = ['a','b','c','a','b','c','a','b','c','a']*2
df.loc[df['names']=='a','names'] = pd.NA
df.loc[df['names']=='b','names'] = np.nan
df.loc[df['names']=='c','names'] = None
df

Out[0]:
      values     above     below names
0   0.323531  0.323531  0.323531  <NA>
1   0.690383  0.690383  0.690383   NaN
2   0.692371  0.692371  0.692371  None
3   0.259712  0.259712       NaN  <NA>
4   0.473505  0.473505  0.473505   NaN
5   0.907751       NaN  0.907751  None
6   0.642596  0.642596  0.642596  <NA>
7   0.229420  0.229420       NaN   NaN
8   0.576324  0.576324  0.576324  None
9   0.823715       NaN  0.823715  <NA>
10  0.210176  0.210176       NaN  <NA>
11  0.629563  0.629563  0.629563   NaN
12  0.481969  0.481969  0.481969  None
13  0.400318  0.400318  0.400318  <NA>
14  0.582735  0.582735  0.582735   NaN
15  0.743162       NaN  0.743162  None
16  0.134903  0.134903       NaN  <NA>
17  0.386366  0.386366  0.386366   NaN
18  0.313160  0.313160  0.313160  None
19  0.695956  0.695956  0.695956  <NA>

因此,对于数值而言,这些不同的空值之间的区别似乎并不重要,但它们对于字符串的表示方式不同(也许对于其他数据类型?)。

我的问题基于上述

我完全预料到我可能对事物的解释以及和之间的区别有缺陷pandasnumpy所以请纠正我。

标签: pythonpandasnumpynullmissing-data

解决方案


is的一个主要依赖项pandasnumpy,换句话说,pandas 是建立在 numpy 之上的。因为 pandas 继承并使用了许多 numpy 方法,所以保持一致是有意义的,也就是说,缺失的数字数据用np.NaN.

(这种建立在 numpy 上的选择也会对其他事情产生影响。例如,日期和时间操作是建立在np.timedelta64and np.datetime64dtypes 上的,而不是标准datetime模块上。)


你可能不知道的一件事是它numpy一直在那里pandas

import pandas as pd
pd.np?
pd.np.nan

尽管您可能认为这种行为可能会更好,因为您不导入 numpy,但不鼓励这样做,并且在不久的将来会弃用,以支持直接导入numpy

FutureWarning:pandas.np 模块已弃用,将在未来版本中从 pandas 中删除。而是直接导入numpy


在 pandas中使用np.nan(而不是None)表示空值是惯例吗?

如果数据是数字,那么是的,您应该使用np.NaN. None需要 dtypeObject和 pandas,您希望将数字数据存储在数字 dtype 中。pandas通常会在创建或导入时强制转换为正确的 null 类型,以便它可以使用正确的dtype

pd.Series([1, None])
#0    1.0
#1    NaN        <- None became NaN so it can have dtype: float64
#dtype: float64

为什么 pandas 在其生命周期的大部分时间里(直到去年)都没有自己的 null 值?添加的动机是什么?

pandas没有它自己的 null 值,因为它np.NaN在大多数情况下都适用。但是,pandas由于缺少数据是很常见的,因此文档的整个部分都专门用于此。NaN,作为浮点数,不适合整数容器,这意味着任何缺少数据的数字系列都将向上转换为float由于浮点数学,这可能会成为问题,并且某些整数不能用浮点数完美表示。结果,任何连接merges都可能失败。

# Gets upcast to float
pd.Series([1,2,np.NaN])
#0    1.0
#1    2.0
#2    NaN
#dtype: float64

# Can safely do merges/joins/math because things are still Int
pd.Series([1,2,np.NaN]).astype('Int64')
#0       1
#1       2
#2    <NA>
#dtype: Int64

推荐阅读