python - 如何忽略熊猫数据框中的值而不是删除它
问题描述
我通过连接几个数据集创建了一个数据集。其中一些有一个额外的列co2_rating
。我想保留它,因为它与目标变量具有线性关系,因此co2_rating
用 0 填充了另一个数据集的列。
但这会影响变量之间的关系。
解决方案
在构建线性模型时,您必须使用集中趋势度量来填充值。这是这些模型的一个缺点。如果你使用随机森林,你可以将它设置为 0,甚至 -999,模型可以区分。
对于数据分析,您可以将其设置为np.nan
. Matplotlib 在绘图时会自动忽略这些点。
或者,在绘图之前过滤掉这些行。
sns.scatterplot(x=dataset[dataset['co2_rating'] != 0]['co2_rating'], y=dataset[dataset['co2_rating'] != 0]['co2_emissions'])
推荐阅读
- node.js - 无法从 then() 中获取数据 节点JS
- node.js - NestJS - 在微服务中结合 HTTP 和 RabbitMQ
- api - 如何使用 cryptocomapre api 显示 BTC 的价格?
- python - django中的“保存电子邮件的路径无效:无”
- php - MySQL:LEFT JOIN 用于 4 个相互连接的表
- javascript - 使用 Promises 链实现详细的睡眠功能
- react-native - 如何在反应本机ios中链接包lib?
- linux - 通过 remap_pfn_range 将 dmam_alloc_coherent 分配的内存映射到用户空间提供指向错误内存区域的指针
- c# - 无法将类型 *** 隐式转换为 ****
- r - 闪亮的应用程序未加载图形