python - 如何在 groupby 中填写日期限制
问题描述
我正在使用以下 Dataframe,其中包含一些 NaN 值。
df = pd.DataFrame({'day':[pd.datetime(2020,1,1),pd.datetime(2020,1,3),pd.datetime(2020,1,4),pd.datetime(2020,1,5),pd.datetime(2020,1,6),pd.datetime(2020,1,7),pd.datetime(2020,1,8),pd.datetime(2020,1,8),pd.datetime(2020,6,9)],
'TradeID':['01','02','03','04','05','06','07','08','09'],
'Security': ['GOOGLE', 'GOOGLE', 'APPLE', 'GOOGLE', 'GOOGLE','GOOGLE','GOOGLE','GOOGLE','GOOGLE'],
'ID': ['ID001', 'ID001', 'ID001', 'ID001', 'ID001','ID001','ID001','ID001','ID001'],
'BSType': ['B', 'S', 'B', 'B', 'B','S','S','S','B'],
'Price':[105.901,106.969,np.nan,107.037,107.038,107.136,np.nan,107.25,np.nan],
'Quantity':[1000000,-300000,np.nan,7500000,100000,-100000,np.nan,-7800000,np.nan]
})
Out[318]:
day TradeID Security ID BSType Price Quantity
0 2020-01-01 01 GOOGLE ID001 B 105.901 1000000.0
1 2020-01-03 02 GOOGLE ID001 S 106.969 -300000.0
2 2020-01-04 03 APPLE ID001 B NaN NaN
3 2020-01-05 04 GOOGLE ID001 B 107.037 7500000.0
4 2020-01-06 05 GOOGLE ID001 B 107.038 100000.0
5 2020-01-07 06 GOOGLE ID001 S 107.136 -100000.0
6 2020-01-08 07 GOOGLE ID001 S NaN NaN
7 2020-01-08 08 GOOGLE ID001 S 107.250 -7800000.0
8 2020-06-09 09 GOOGLE ID001 B NaN NaN
我的目标是使用 ffill 方法填充仅针对相同的安全性、相同的 ID 并在接下来的 60 天(不是接下来的 60 次观察,因为每天可能有不止一次观察)。
这是我尝试过但不起作用的方法,它不会替换我的任何 NaN 值
df=df.groupby(['day',"Security","ID"], as_index=False).fillna(method='ffill',limit=60)
预期的输出应如下所示:(请注意,仅填充了第二对 NaN 值)
- 不应填充第一对 NaN 值,因为它们的安全性不同。
- 第二对 NaN 值应填充先前的观察值。
- NaN 上的第三对不应填写,因为它们超出了 60 天的范围。
Out[320]:
day TradeID Security ID BSType Price Quantity
0 2020-01-01 01 GOOGLE ID001 B 105.901 1000000.0
1 2020-01-03 02 GOOGLE ID001 S 106.969 -300000.0
2 2020-01-04 03 APPLE ID001 B NaN NaN
3 2020-01-05 04 GOOGLE ID001 B 107.037 7500000.0
4 2020-01-06 05 GOOGLE ID001 B 107.038 100000.0
5 2020-01-07 06 GOOGLE ID001 S 107.136 -100000.0
6 2020-01-08 07 GOOGLE ID001 S 107.136 -100000.0
7 2020-01-08 08 GOOGLE ID001 S 107.250 -7800000.0
8 2020-06-09 09 GOOGLE ID001 B NaN NaN
所以,我的问题是,¿是否有一种合理的方法来填充 NaN 值,限制 ffill 方法在某个时期?
非常感谢您的时间。
解决方案
您可以group
在列上使用数据框Security
以及设置频率ID
的附加grouper
列,然后用于转发填充下一个值:day
60 days
ffill
60 days
g = pd.Grouper(key='day', freq='60d')
df.assign(**df.groupby(["Security","ID", g]).ffill())
day TradeID Security ID BSType Price Quantity
0 2020-01-01 01 GOOGLE ID001 B 105.901 1000000.0
1 2020-01-03 02 GOOGLE ID001 S 106.969 -300000.0
2 2020-01-04 03 APPLE ID001 B NaN NaN
3 2020-01-05 04 GOOGLE ID001 B 107.037 7500000.0
4 2020-01-06 05 GOOGLE ID001 B 107.038 100000.0
5 2020-01-07 06 GOOGLE ID001 S 107.136 -100000.0
6 2020-01-08 07 GOOGLE ID001 S 107.136 -100000.0
7 2020-01-08 08 GOOGLE ID001 S 107.250 -7800000.0
8 2020-06-09 09 GOOGLE ID001 B NaN NaN
推荐阅读
- powershell - 无法将值“Int32”转换为类型“System.Int32”
- java - 从 pfx 文件生成的 JAVA jks 密钥库问题
- json - 在 JSON 正文中添加时间戳
- python - Tabula-py 通过 300 dpi 的区域坐标像素提取表格
- list - 如何颤振将地图转换为字符串
- java - Spring boot:无法从 application.properties 文件中获取属性 utf-8 编码(输出为 ÐÒ¯ÑÑгүүлÑÑн)
- c# - WPF MVVM 我可以从视图中使用模型吗
- python - 在 python 中导入高频更新数据的最佳方法是什么?
- java - 使用 prometheus 的自定义计数器在 /actuator/prometheus 上不可见
- docker - curl证书在docker容器中失败