python - 每月对数据框列进行 Winsorize,同时忽略 NaN
问题描述
我有一个包含每月数据和以下列的数据框:日期、bm 和现金
date bm cash
1981-09-30 0.210308 2.487146
1981-10-31 0.241291 2.897529
1981-11-30 0.221529 2.892758
1981-12-31 0.239002 2.726372
1981-09-30 0.834520 4.387087
1981-10-31 0.800472 4.297658
1981-11-30 0.815778 4.459382
1981-12-31 0.836681 4.895269
现在我想每月对我的数据进行winsorize,同时在数据中保留 NaN 值。即我想每月对数据进行分组,并分别用 99 个百分位和 0.01 个百分位覆盖 0.99 以上和 0.01 个百分位以下的观察值。从使用 NaN 在 pandas 中按列 Winsorizing data我发现我应该使用“clip”函数来执行此操作。我的代码如下所示:
df['date'] = pd.to_datetime(df['date'])
df = df.set_index(['date'])
df_grouped = df.groupby(pd.Grouper(freq='M'))
cols = df.columns
for c in cols:
df[c] = df_grouped[c].apply(lambda x: x.clip(lower=x.quantile(0.01), upper=x.quantile(0.99)))
我得到以下输出:ValueError: cannot reindex from a duplicate axis
PS我意识到我没有包括我所需的输出,但我希望所需的输出是明确的。否则我可以尝试把一些东西放在一起。
编辑: @Allolz 的这些解决方案已经很有帮助,但它并不能完全按照预期工作。在我从@Allolz II 运行代码之前运行:
df_in.groupby(pd.Grouper(freq='M', key='date'))['secured'].quantile([0, 0.01, 0.25, 0.5, 0.75, 0.99, 1])
哪个返回:
date
1980-01-31 0.00 1.580564e+00
0.01 1.599805e+00
0.25 2.388106e+00
0.50 6.427071e+00
0.75 1.200685e+01
0.99 5.133111e+01
1.00 5.530329e+01
在winsorizing后,我得到:
date
1980-01-31 0.00 1.599805
0.01 1.617123
0.25 2.388106
0.50 6.427071
0.75 12.006854
0.99 47.756152
1.00 51.331114
很明显,新的 0.0 和 1.0 分位数等于原来的 0.01 和 0.09 分位数,这是我们所期望的。但是,新的 0.01 和 0.99 分位数不等于原来的 0.01 和 0.99 分位数,我希望它们应该保持不变。什么会导致这种情况,而 wat 可以解决它吗?我的预感是它可能与数据中的 NaN 有关,但我不确定这是否真的是原因。
解决方案
一种更快的方法需要您创建帮助列。我们将使用groupby
+transform
将 0.01 和 0.99 分位数(对于该月份组)的列广播回 DataFrame,然后您可以使用这些系列一次剪辑原始数据。(clip
将不理会NaN
,因此它也满足该要求)。然后,如果您愿意,请删除辅助列(为了清楚起见,我将保留它们)。
样本数据
import numpy as np
import panda as pd
np.random.seed(123)
N = 10000
df = pd.DataFrame({'date': np.random.choice(pd.date_range('2010-01-01', freq='MS', periods=12), N),
'val': np.random.normal(1, 0.95, N)})
代码
gp = df.groupby(pd.Grouper(freq='M', key='date'))['val']
# Assign the lower-bound ('lb') and upper-bound ('ub') for Winsorizing
df['lb'] = gp.transform('quantile', 0.01)
df['ub'] = gp.transform('quantile', 0.99)
# Winsorize
df['val_wins'] = df['val'].clip(upper=df['ub'], lower=df['lb'])
输出
大多数行不会更改(仅在 1-99 个百分位之外的行),因此我们可以检查发生更改的小 susbet 行以查看它是否有效。您可以看到相同月份的行具有相同的界限,并且 Winsorized 值 ( 'val_wins'
) 被正确地剪裁到它超出的界限。
df[df['val'] != df['val_wins']]
# date val lb ub val_wins
#42 2010-09-01 -1.686566 -1.125862 3.206333 -1.125862
#96 2010-04-01 -1.255322 -1.243975 2.995711 -1.243975
#165 2010-08-01 3.367880 -1.020273 3.332030 3.332030
#172 2010-09-01 -1.813011 -1.125862 3.206333 -1.125862
#398 2010-09-01 3.281198 -1.125862 3.206333 3.206333
#... ... ... ... ... ...
#9626 2010-12-01 3.626950 -1.198967 3.249161 3.249161
#9746 2010-11-01 3.472490 -1.259557 3.261329 3.261329
#9762 2010-09-01 3.460467 -1.125862 3.206333 3.206333
#9768 2010-06-01 -1.625013 -1.482529 3.295520 -1.482529
#9854 2010-12-01 -1.475515 -1.198967 3.249161 -1.198967
#
#[214 rows x 5 columns]
推荐阅读
- java - 如何针对远程领域对 acc 客户端进行身份验证
- opengl - 如何在 OpenGL 片段着色器中渲染最近的顶点
- github - 如何更改遥控器以在 VS Code 中同步?
- firebase - Firebase 身份验证 Twitter 和 Google
- python - 使用 panda 中的 read_excel 函数遍历 excel 文件中的所有列
- discord.js - 尝试为 Discord bot 编写音乐播放器时出错
- laravel - 如何在 laravel-queue-rabbitmq 中配置多个交换?
- python - TypeError: 不支持的操作数类型 -: 'int' 和 'builtin_function_or_method'
- javascript - HTML 中的新标签和解析器
- ios - 如何使自动布局与 XIB 上的自定义 UIView 一起使用?