python - Python Pandas - 使用 interpolate() 将一列的 NaN 值替换为另一列
问题描述
我在Temperature
使用.City
interpolate()
df是:
data ={
'City':['Greenville','Charlotte', 'Los Gatos','Greenville','Carson City','Greenville','Greenville' ,'Charlotte','Carson City',
'Greenville','Charlotte','Fort Lauderdale', 'Rifle', 'Los Gatos','Fort Lauderdale'],
'Rec_times':['2019-05-21 08:29:55','2019-01-27 17:43:09','2020-12-13 21:53:00','2019-07-17 11:43:09','2018-04-17 16:51:23',
'2019-10-07 13:28:09','2020-01-07 11:38:10','2019-11-03 07:13:09','2020-11-19 10:45:23','2020-10-07 15:48:19','2020-10-07 10:53:09',
'2017-08-31 17:40:49','2016-08-31 17:40:49','2021-11-13 20:13:10','2016-08-31 19:43:29'],
'Temperature':[30,45,26,33,50,None,29,None,48,32,47,33,None,None,28],
'Pressure':[30,None,26,43,50,36,29,None,48,32,None,35,23,49,None]
}
df =pd.DataFrame(data)
df
输出:
City Rec_times Temperature Pressure
0 Greenville 2019-05-21 08:29:55 30.0 30.0
1 Charlotte 2019-01-27 17:43:09 45.0 NaN
2 Los Gatos 2020-12-13 21:53:00 26.0 26.0
3 Greenville 2019-07-17 11:43:09 33.0 43.0
4 Carson City 2018-04-17 16:51:23 50.0 50.0
5 Greenville 2019-10-07 13:28:09 NaN 36.0
6 Greenville 2020-01-07 11:38:10 29.0 29.0
7 Charlotte 2019-11-03 07:13:09 NaN NaN
8 Carson City 2020-11-19 10:45:23 48.0 48.0
9 Greenville 2020-10-07 15:48:19 32.0 32.0
10 Charlotte 2020-10-07 10:53:09 47.0 NaN
11 Fort Lauderdale 2017-08-31 17:40:49 33.0 35.0
12 Rifle 2016-08-31 17:40:49 NaN 23.0
13 Los Gatos 2021-11-13 20:13:10 NaN 49.0
14 Fort Lauderdale 2016-08-31 19:43:29 28.0 NaN
我希望您通过使用 interpolate(method='time')NaN
对列中的值Temperature
进行分组来处理它们。City
前任:
将其视为“格林维尔City
”,它在不同时间记录了5 个温度(30,33,NaN,29
和)。通过使用 和对记录进行分组,将in中32
的值替换为一个值。NaN
Temperature
City
interpolate(method='time')
注意:如果您知道任何其他最佳替换方法NaN
,Temperature
您可以将其用作“其他解决方案”。
解决方案
使用由 with 创建的lambdaDatetimeIndex
函数:DataFrame.set_index
GroupBy.transform
df["Rec_times"] = pd.to_datetime(df["Rec_times"])
df['Temperature'] = (df.set_index('Rec_times')
.groupby("City")['Temperature']
.transform(lambda x: x.interpolate(method='time')).to_numpy())
之后替换缺失值的一种可能想法interpolate
是将它们替换mean
为所有值中的 ,例如:
df1.Temperature = df1.Temperature.fillna(df1.Temperature.mean())
推荐阅读
- sql - 在两个不同的列中搜索和匹配索引,返回第三列的总和 - Postgresql
- python - Google Directory API 返回过时的值
- python - 检查系列中的元素是否相对于系列熊猫中的先前值增加,快速解决方案
- dbeaver - 将 dbeaver 创建表脚本转换为 sql server 脚本
- python-3.x - Groupby 在 pandas 数据框中按季度确定日期并查找它们的出现次数
- spring - 春季启动 liquibase。在实体和数据库之间执行 DIFF
- vue.js - 路径在本地主机上工作,但在生产服务器上不工作 [vue.js]
- sql - 为什么这个 SUM() 字段没有按预期工作?
- google-cloud-storage - 使用 gsutil 命令将维度添加到估计销售报告
- java - 一个 POJO,但 XmlRootElement 名称不同