python - 是否可以忽略 NA 但不能将其放入数据框中?
问题描述
我的数据框有 80 列乘以 100 万行。
数据集中有很多 NaN,如果我要删除所有 NA 值,我会丢失太多数据而无法使用。
我想知道是否有一种方法可以遍历这些列,并且稍后它会进行任何计算,例如平均值、中等、模式或更高级的计算,它只是假装这些值不存在。
它并不总是像 NaN 一样,它有时包括应该忽略的值,例如“Infinity”。
有没有类似的东西:
Find NaN and Infinity in Dataframe, flag them and DO NOT CONSIDER them IN CALCULATIONS
我试图找到一个命令来执行它,但是任何关于它的信息,也许我只是很傻。
解决方案
某些pandas
函数会自动忽略NaN
值。例如:
import pandas as pd
s = pd.Series([np.nan, 1, 2, 3])
s.mean()
给出结果2.0
,因此它忽略NaN
值。median
和 也是如此mode
。
对于这些inf
价值观,我会问自己它们是否真的有意义。如果不是,您可以将它们替换NaN
为进行mean
计算。和函数已经能够处理它median
。mode
推荐阅读
- php - drupal 是开发自定义需求大项目的好平台吗?
- angular - 如果使用异步数据,角度 ng?
- python - 调整 PyTorch 张量的大小
- php - 如何在 WordPress 子主题中覆盖 inc/meta-banner.php
- scala - Scala:将函数参数作为元组传递
- javascript - CKeditor:如何在保存时平衡 HTML 标签?(他们平衡负载)
- java - JavaFX - 使用比例获取 MouseEvent 位置
- c# - C#如何在缩放后获得原始屏幕边界
- powershell - Windows PowerShell 中的管道
- spring - 使用程序集描述符设置 Spring Boot pom.xml