首页 > 解决方案 > 突出组内独特观察的功能

问题描述

我想帮助创建一个按组(未指定颜色)动态迭代数据帧的函数,查看 ID 以查看哪个 id 是否与每个按颜色分组的大多数 id 不对齐(所以无论数字每种颜色的观察值,相当于每种颜色的填充 id 的一半以上,因为这种情况是正确的)。真实的数据集很可能每种颜色有 10-50 行,并且可能有多个实例存在不合适的 id。如果我们可以包含字符串注释“Flag for later research”,或者更简单的简单 0/1 输出并且我可以编写相应的文本功能,那就太好了。我无法弄清楚从哪里开始。使用 groupby nunique 函数或循环或将两者结合的东西。

数据样本:

color    id    commitment    Note  *(where i need help) 
blue     1     10
blue     1     5
blue     1     15
blue     2     10            Flag for later research
blue     1     9
green    3     10
green    3     11
green    2     12            Flag for later research
green    3     15

标签: pythonpandasunique

解决方案


国际大学联盟:

df['Note'] = ~df.duplicated(['color','id'], keep=False)

给你:

   color  id  commitment   Note
0   blue   1          10  False
1   blue   1           5  False
2   blue   1          15  False
3   blue   2          10   True
4   blue   1           9  False
5  green   3          10  False
6  green   3          11  False
7  green   2          12   True
8  green   3          15  False

推荐阅读