首页 > 解决方案 > 与索引连接的数据框

问题描述

我有一个从文件中读取的 Python 数据框

我要做的下一步是将数据集分成 2 个数据集 df_LastYear 和 df_ThisYear

注意:该索引不是连续缺少 2 和 6

      ID  AdmissionAge
0     14            68
1     22            86
3     78            40
4    124            45
5    128            35
7    148            92
8    183            71
9    185            98
10   219            79

应用一些预测模型后,我得到预测值 y_ThisYear 的结果

     Prediction
0   2.400000e+01
1   1.400000e+01
2   1.000000e+00
3   2.096032e+09
4   2.000000e+00
5  -7.395179e+11
6   6.159412e+06
7   5.592327e+07
8   5.303477e+08
9   5.500000e+00
10  6.500000e+00

我正在尝试将两个数据集 df_ThisYear 和 y_ThisYear 合并到一个数据集中

但我总是得到这些结果

       ID  AdmissionAge    Prediction
0    14.0          68.0  2.400000e+01
1    22.0          86.0  1.400000e+01
2     NaN           NaN  1.000000e+00
3    78.0          40.0  2.096032e+09
4   124.0          45.0  2.000000e+00
5   128.0          35.0 -7.395179e+11
6     NaN           NaN  6.159412e+06
7   148.0          92.0  5.592327e+07
8   183.0          71.0  5.303477e+08
9   185.0          98.0  5.500000e+00
10  219.0          79.0  6.500000e+00

有一些以前不存在的 NaN

我发现这些 NaN 属于未包含在 df_ThisYear 中的索引

因此我尝试重置索引,以便获得连续索引

我用了

df_ThisYear.reset_index(drop=True)

但仍然获得相同的指数

如何解决这个问题,以便我可以正确地将 df_ThisYear 与 y_ThisYear 连接起来?

标签: pythonpandasdataframe

解决方案


那么你只需要join

df.join(Y)
     ID  AdmissionAge    Prediction
0    14            68  2.400000e+01
1    22            86  1.400000e+01
3    78            40  2.096032e+09
4   124            45  2.000000e+00
5   128            35 -7.395179e+11
7   148            92  5.592327e+07
8   183            71  5.303477e+08
9   185            98  5.500000e+00
10  219            79  6.500000e+00

推荐阅读