首页 > 解决方案 > 如何查找列连续月数为 6 的索引?

问题描述

例子

df
    id   date 
    A    201901
    A    201902
    A    201903
    A    201904
    A    201905
    A    201906
    A    202006
    A    202007
    A    202008
    B    202008
    B    202009
    B    202109
    B    202110
    B    202111
    C    201901
    C    201902
    C    201903
    C    201904
    C    201905
    C    201906
    C    202006
    C    202007
    C    202008
    C    202009
    C    202010
    C    202011

对于每个 id,date都进行排序。

预期的

我想找到连续 6 个月的 id。对于 id A, 201901-201906 而 idC是 202006-2020011

 expected_id=['A','C']

col日期的类型是object

尝试

我不知道如何得到它。

标签: pandas

解决方案


您可以通过以下方式使用聚合s修改以前的解决方案countGroupBy.size

df['date'] = pd.to_datetime(df['date'], format='%Y%m').dt.to_period('M')

new = df.groupby('id', group_keys=False)['date'].diff().ne(pd.offsets.MonthEnd()).cumsum()

df = df.groupby(['id',new]).size().reset_index(name='count')
print (df)
  id  date  count
0  A     1      6
1  A     2      3
2  B     3      2
3  B     4      3
4  C     5      6
5  C     6      6

最后id通过 equal 6in DataFrame.locwith过滤boolean indexing

expected_id = df.loc[df['count'].eq(6), 'id'].unique().tolist()
print (expected_id)
['A', 'C']

推荐阅读