python - 根据频率扩展数据集
问题描述
可能扩展为:去聚合/反向汇总/扩展 R 中的数据集 我有一个看起来像这样的数据框:
I_Code Date_1 Date_2
2 14/09/2019 16/08/2019
2 14/09/2019 17/08/2019
2 14/09/2019 19/08/2019
2 14/09/2019 20/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 21/08/2019
2 14/09/2019 22/08/2019
2 14/09/2019 23/08/2019
2 14/09/2019 23/08/2019
2 14/09/2019 24/08/2019
2 14/09/2019 27/08/2019
2 14/09/2019 28/08/2019
2 14/09/2019 28/08/2019
2 14/09/2019 29/08/2019
2 14/09/2019 04/09/2019
2 14/09/2019 04/09/2019
2 14/09/2019 04/09/2019
2 14/09/2019 05/09/2019
2 14/09/2019 08/09/2019
2 14/09/2019 10/09/2019
2 14/09/2019 10/09/2019
2 14/09/2019 12/09/2019
I_code 可以取 5 个值。
我有另一个数据框,如下所示:
date_2 count
20/09/2019 415
19/09/2019 431
31/08/2019 386
24/09/2019 404
11/08/2019 252
27/09/2019 441
28/09/2019 398
17/09/2019 430
07/09/2019 388
10/09/2019 369
22/08/2019 318
25/09/2019 420
25/08/2019 380
17/08/2019 291
01/09/2019 381
30/08/2019 345
22/09/2019 455
07/09/2019 388
09/08/2019 213
24/09/2019 404
23/08/2019 344
17/08/2019 291
07/09/2019 388
这里的计数代表 date_2 的频率。
我想根据 dataframe2 中 date_2 的频率将 dataframe1 扩展到 20k 个条目。
对于数据帧 1 中的每个 date_2,我们关联了 5 个 I_code。我想将它们平均分配到数据框中。
例如 :
20/09/2019 总共有 415 个计数,那么我们需要 (I_code, Date_1, Date_2) 的 415 个条目。dataframe1 中的 3 个字段可能有多个元组条目。我们需要选择与 date_2 关联的所有值,然后根据 dataframe2 中 date_2 的频率展开所有条目。
任何人都可以帮忙。
解决方案
推荐阅读
- python - 嵌套字典到 pandas df 连接行
- sql-server - 返回余额低于阈值的所有记录
- talend - 在 talend 时间戳值未使用动态模式正确填充
- react-native - Reanimated 2创建worklet失败,可能是你忘记添加Reanimated的babel插件了?
- bash - Bash/Rust 问题:从 Bash 运行火焰图工作,从 Rust 失败
- wpf - 如何更新 wpf DataGrid 中的 DatePicker 值
- java - 在具有持久卷的 Kubernetes 中的 Docker 上运行时,Hadoop Java 失败
- php - Eloquent 模型关系不返回子关系特定的列值
- python - 装饰器有奇怪的行为
- dialogflow-es-fulfillment - 到 mongodb 的连接字符串