首页 > 解决方案 > 根据频率扩展数据集

问题描述

可能扩展为:去聚合/反向汇总/扩展 R 中的数据集 我有一个看起来像这样的数据框:

I_Code  Date_1  Date_2
2   14/09/2019  16/08/2019
2   14/09/2019  17/08/2019
2   14/09/2019  19/08/2019
2   14/09/2019  20/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  21/08/2019
2   14/09/2019  22/08/2019
2   14/09/2019  23/08/2019
2   14/09/2019  23/08/2019
2   14/09/2019  24/08/2019
2   14/09/2019  27/08/2019
2   14/09/2019  28/08/2019
2   14/09/2019  28/08/2019
2   14/09/2019  29/08/2019
2   14/09/2019  04/09/2019
2   14/09/2019  04/09/2019
2   14/09/2019  04/09/2019
2   14/09/2019  05/09/2019
2   14/09/2019  08/09/2019
2   14/09/2019  10/09/2019
2   14/09/2019  10/09/2019
2   14/09/2019  12/09/2019

I_code 可以取 5 个值。

我有另一个数据框,如下所示:

date_2  count
20/09/2019  415
19/09/2019  431
31/08/2019  386
24/09/2019  404
11/08/2019  252
27/09/2019  441
28/09/2019  398
17/09/2019  430
07/09/2019  388
10/09/2019  369
22/08/2019  318
25/09/2019  420
25/08/2019  380
17/08/2019  291
01/09/2019  381
30/08/2019  345
22/09/2019  455
07/09/2019  388
09/08/2019  213
24/09/2019  404
23/08/2019  344
17/08/2019  291
07/09/2019  388

这里的计数代表 date_2 的频率。

我想根据 dataframe2 中 date_2 的频率将 dataframe1 扩展到 20k 个条目。

对于数据帧 1 中的每个 date_2,我们关联了 5 个 I_code。我想将它们平均分配到数据框中。

例如 :

20/09/2019 总共有 415 个计数,那么我们需要 (I_code, Date_1, Date_2) 的 415 个条目。dataframe1 中的 3 个字段可能有多个元组条目。我们需要选择与 date_2 关联的所有值,然后根据 dataframe2 中 date_2 的频率展开所有条目。

任何人都可以帮忙。

标签: pythonrpandasnumpy

解决方案


推荐阅读