首页 > 解决方案 > 每月对数据框列进行 Winsorize,同时忽略 NaN

问题描述

我有一个包含每月数据和以下列的数据框:日期、bm 和现金

date        bm        cash
1981-09-30  0.210308  2.487146
1981-10-31  0.241291  2.897529
1981-11-30  0.221529  2.892758
1981-12-31  0.239002  2.726372
1981-09-30  0.834520  4.387087
1981-10-31  0.800472  4.297658
1981-11-30  0.815778  4.459382
1981-12-31  0.836681  4.895269

现在我想每月对我的数据进行winsorize,同时在数据中保留 NaN 值。即我想每月对数据进行分组,并分别用 99 个百分位和 0.01 个百分位覆盖 0.99 以上和 0.01 个百分位以下的观察值。从使用 NaN 在 pandas 中按列 Winsorizing data我发现我应该使用“clip”函数来执行此操作。我的代码如下所示:

df['date'] = pd.to_datetime(df['date'])
df = df.set_index(['date'])
df_grouped = df.groupby(pd.Grouper(freq='M'))
cols = df.columns
for c in cols:
    df[c] = df_grouped[c].apply(lambda x: x.clip(lower=x.quantile(0.01), upper=x.quantile(0.99)))

我得到以下输出:ValueError: cannot reindex from a duplicate axis

PS我意识到我没有包括我所需的输出,但我希望所需的输出是明确的。否则我可以尝试把一些东西放在一起。

编辑: @Allolz 的这些解决方案已经很有帮助,但它并不能完全按照预期工作。在我从@Allolz II 运行代码之前运行: df_in.groupby(pd.Grouper(freq='M', key='date'))['secured'].quantile([0, 0.01, 0.25, 0.5, 0.75, 0.99, 1])

哪个返回:

date            
1980-01-31  0.00    1.580564e+00
            0.01    1.599805e+00
            0.25    2.388106e+00
            0.50    6.427071e+00
            0.75    1.200685e+01
            0.99    5.133111e+01
            1.00    5.530329e+01

在winsorizing后,我得到:

date            
1980-01-31  0.00         1.599805
            0.01         1.617123
            0.25         2.388106
            0.50         6.427071
            0.75        12.006854
            0.99        47.756152
            1.00        51.331114

很明显,新的 0.0 和 1.0 分位数等于原来的 0.01 和 0.09 分位数,这是我们所期望的。但是,新的 0.01 和 0.99 分位数不等于原来的 0.01 和 0.99 分位数,我希望它们应该保持不变。什么会导致这种情况,而 wat 可以解决它吗?我的预感是它可能与数据中的 NaN 有关,但我不确定这是否真的是原因。

标签: pythonpandasnanclip

解决方案


一种更快的方法需要您创建帮助列。我们将使用groupby+transform将 0.01 和 0.99 分位数(对于该月份组)的列广播回 DataFrame,然后您可以使用这些系列一次剪辑原始数据。(clip将不理会NaN,因此它也满足该要求)。然后,如果您愿意,请删除辅助列(为了清楚起见,我将保留它们)。

样本数据

import numpy as np
import panda as pd

np.random.seed(123)
N = 10000
df = pd.DataFrame({'date': np.random.choice(pd.date_range('2010-01-01', freq='MS', periods=12), N),
                   'val': np.random.normal(1, 0.95, N)})

代码

gp = df.groupby(pd.Grouper(freq='M', key='date'))['val']

# Assign the lower-bound ('lb') and upper-bound ('ub') for Winsorizing
df['lb'] = gp.transform('quantile', 0.01)
df['ub'] = gp.transform('quantile', 0.99)

# Winsorize
df['val_wins'] = df['val'].clip(upper=df['ub'], lower=df['lb'])

输出

大多数行不会更改(仅在 1-99 个百分位之外的行),因此我们可以检查发生更改的小 susbet 行以查看它是否有效。您可以看到相同月份的行具有相同的界限,并且 Winsorized 值 ( 'val_wins') 被正确地剪裁到它超出的界限。

df[df['val'] != df['val_wins']]

#           date       val        lb        ub  val_wins
#42   2010-09-01 -1.686566 -1.125862  3.206333 -1.125862
#96   2010-04-01 -1.255322 -1.243975  2.995711 -1.243975
#165  2010-08-01  3.367880 -1.020273  3.332030  3.332030
#172  2010-09-01 -1.813011 -1.125862  3.206333 -1.125862
#398  2010-09-01  3.281198 -1.125862  3.206333  3.206333
#...         ...       ...       ...       ...       ...
#9626 2010-12-01  3.626950 -1.198967  3.249161  3.249161
#9746 2010-11-01  3.472490 -1.259557  3.261329  3.261329
#9762 2010-09-01  3.460467 -1.125862  3.206333  3.206333
#9768 2010-06-01 -1.625013 -1.482529  3.295520 -1.482529
#9854 2010-12-01 -1.475515 -1.198967  3.249161 -1.198967
#
#[214 rows x 5 columns]

推荐阅读