首页 > 解决方案 > 如何忽略熊猫数据框中的值而不是删除它

问题描述

我通过连接几个数据集创建了一个数据集。其中一些有一个额外的列co2_rating。我想保留它,因为它与目标变量具有线性关系,因此co2_rating用 0 填充了另一个数据集的列。

但这会影响变量之间的关系。

在数据分析或创建线性回归模型训练/测试时如何忽略某个值或多个值在此处输入图像描述

标签: pythonpandasmachine-learningregressionanalysis

解决方案


在构建线性模型时,您必须使用集中趋势度量来填充值。这是这些模型的一个缺点。如果你使用随机森林,你可以将它设置为 0,甚至 -999,模型可以区分。

对于数据分析,您可以将其设置为np.nan. Matplotlib 在绘图时会自动忽略这些点。

或者,在绘图之前过滤掉这些行。

sns.scatterplot(x=dataset[dataset['co2_rating'] != 0]['co2_rating'], y=dataset[dataset['co2_rating'] != 0]['co2_emissions'])

推荐阅读