首页 > 解决方案 > 在现有的 pandas df 中添加缺少观测值的变量,而不会丢失较大 df 中的观测值

问题描述

我有两个数据框。一个叫 ENFORE,有 139 个观察结果:

citation    Enfore
0170/0952   1
0175/0686   1
0184/0521   1
0183/0726   1
0178/0595   0

另一个名为 CITATIONS 的数据框有 668 个观察值,也有列引用,但没有 Enfore。ENFORE 中的所有引文都在 CITATIONS 数据框中。

我想将 Enfore 列添加到 CITATIONS 数据框中,并用“X”填写不在 ENFORE 数据框中的观察结果。

使用此代码的各种变体(合并和连接)

enfore_merged = pd.merge(enfore , harrington_citations, on = 'citation')

我无法创建上面描述的数据框。

标签: pythonpandasdataframemergemissing-data

解决方案


你快到了:

enfore_merged = harrington_citations.merge(enfore, how='left', on='citation')
enfore_merged['Enfore'] = enfore_merged['Enfore'].fillna('X')

推荐阅读