首页 > 解决方案 > 如何在熊猫(python)中选择重复次数超过12的那些值('id')?如果一个特定的 id 重复几次

问题描述

我有信用风险数据,其中有 28 个特征(列)和 622489 行(观察值)。在此数据(csv 文件)中,“id”列有一些 id,其 value_counts 小于 12,我想创建一个新数据框,其中仅保留那些 value_counts 大于 12 的“id”。基本上,该数据有 5年记录,因此特定 ID 最多重复 60 次,最少重复 1 次,因此我想选择一年的数据。

数据读取

df=pd.read_csv('credid_data.csv')

这就是我所做的

df[(df['id'].value_counts())>12] 或 df.loc[df['id'].value_counts()>12 , : ]

我得到了错误

IndexingError:作为索引器提供的不可对齐的布尔系列(布尔系列的索引和索引对象的索引不匹配)。

我也试过

df[(df.id.value_counts)>12] # 这又给了我错误 TypeError: 'method' object is not iterable

在此处输入图像描述

标签: python

解决方案


推荐阅读