首页 > 解决方案 > 计算 3 个未共享的数据帧中的条目数的最佳方法是什么?

问题描述

我有三个数据框,它们是有关国家/地区的各种统计数据的摘要。我在“国家名称”列上创建了三个数据框的连接。但我想知道从连接中排除的三个原始数据框中存在多少条目。明智的代码计算方法是什么?

标签: pythonpython-3.xpandasdataframe

解决方案


由于您没有提供代码和数据框,因此不清楚您的三个数据框连接的输出是什么。您还应该考虑熊猫默认联接是左联接,因此重新排列数据框可能会改变结果。

但是,它不会改变解决方案。我假设您有一个名为 df 的数据框(您说您是通过连接创建的),并且您正在寻找这三个数据框上存在的 df 中所有缺失的索引。

第一步是使用how = 'outer'参数加入所有数据帧。输出应该包含所有数据帧的所有索引([df1,df2,df3])。第二步就像获取 full_df 和 df 的索引差异一样简单。

这是代码

   full_df = pd.join([df1,df2,df3], how = 'outer') 
   missing_indices = full_df.index.difference(df.index)
   print(missing_indices)

推荐阅读