首页 > 解决方案 > 熊猫均值 vs sum/len

问题描述

所以这真的让我很困惑。我在玩这个Kaggle 数据集,使用 pandas 来学习统计数据。我尝试使用 Series.sum()/len(Series) 计算列的平均值,但后来我记得 Series.mean() 存在。但是,我偶然发现 pandas Series.mean() 给出的结果与 Series.sum()/len(Series) 略有不同。

重现步骤:
- 使用 pd.read_csv() 读取数据集
- 将 MaxTemp 列作为我们将处理的系列,例如名为“workdata”。
- 计算 workdata.mean() 和 workdata.sum()/len(workdata)

目前,我怀疑差异是因为计算机无法 100% 正确计算小数,而且这里有很多小数需要处理,所以小的差异可能会堆积起来。

如果确实如此,哪一个会给出更准确的结果,为什么?

标签: pandassummean

解决方案


这是因为Series.mean()不计算数据NaN帧中的值。如果你想包含NaN你可以使用的值Series.mean(skipna=False)

HAPPY_CODING...


推荐阅读