首页 > 解决方案 > Python Pandas - 使用 interpolate() 将一列的 NaN 值替换为另一列

问题描述

我在Temperature使用.Cityinterpolate()

df是:

data ={
    'City':['Greenville','Charlotte', 'Los Gatos','Greenville','Carson City','Greenville','Greenville' ,'Charlotte','Carson City',
                'Greenville','Charlotte','Fort Lauderdale', 'Rifle', 'Los Gatos','Fort Lauderdale'],
    'Rec_times':['2019-05-21 08:29:55','2019-01-27 17:43:09','2020-12-13 21:53:00','2019-07-17 11:43:09','2018-04-17 16:51:23',
             '2019-10-07 13:28:09','2020-01-07 11:38:10','2019-11-03 07:13:09','2020-11-19 10:45:23','2020-10-07 15:48:19','2020-10-07 10:53:09',
            '2017-08-31 17:40:49','2016-08-31 17:40:49','2021-11-13 20:13:10','2016-08-31 19:43:29'],
    'Temperature':[30,45,26,33,50,None,29,None,48,32,47,33,None,None,28],
    'Pressure':[30,None,26,43,50,36,29,None,48,32,None,35,23,49,None]
}
df =pd.DataFrame(data)
df

输出:

    City              Rec_times            Temperature   Pressure
0   Greenville      2019-05-21 08:29:55        30.0        30.0
1   Charlotte       2019-01-27 17:43:09        45.0         NaN
2   Los Gatos       2020-12-13 21:53:00        26.0        26.0
3   Greenville      2019-07-17 11:43:09        33.0        43.0
4   Carson City     2018-04-17 16:51:23        50.0        50.0
5   Greenville      2019-10-07 13:28:09        NaN         36.0
6   Greenville      2020-01-07 11:38:10        29.0        29.0
7   Charlotte       2019-11-03 07:13:09        NaN         NaN
8   Carson City     2020-11-19 10:45:23        48.0        48.0
9   Greenville      2020-10-07 15:48:19        32.0        32.0
10  Charlotte       2020-10-07 10:53:09        47.0        NaN
11  Fort Lauderdale 2017-08-31 17:40:49        33.0        35.0
12  Rifle           2016-08-31 17:40:49        NaN         23.0
13  Los Gatos       2021-11-13 20:13:10        NaN         49.0
14  Fort Lauderdale 2016-08-31 19:43:29        28.0        NaN

我希望您通过使用 interpolate(method='time')NaN对列中的值Temperature进行分组来处理它们。City

前任:

将其视为“格林维尔City”,它在不同时间记录了5 个温度(30,33,NaN,29和)。通过使用 和对记录进行分组,将in中32的值替换为一个值。NaNTemperatureCityinterpolate(method='time')

注意:如果您知道任何其他最佳替换方法NaNTemperature您可以将其用作“其他解决方案”。

标签: pythonpandasinterpolationnan

解决方案


使用由 with 创建的lambdaDatetimeIndex函数:DataFrame.set_indexGroupBy.transform

df["Rec_times"] = pd.to_datetime(df["Rec_times"])

df['Temperature'] = (df.set_index('Rec_times')
                       .groupby("City")['Temperature']
                       .transform(lambda x: x.interpolate(method='time')).to_numpy())

之后替换缺失值的一种可能想法interpolate是将它们替换mean为所有值中的 ,例如:

df1.Temperature = df1.Temperature.fillna(df1.Temperature.mean())

推荐阅读