首页 > 解决方案 > 如何在熊猫数据框中将重复项限制为 5 个?

问题描述

col1= ['A','B','A','C','A','B','A','C','A','C','A','A','A']
col2= [1,1,4,2,4,5,6,3,1,5,2,1,1]

df = pd.DataFrame({'col1':col1, 'col2':col2})

对于 A,我们有[1,4,4,6,1,2,1,1]8 个项目,但我想在将数据框转换为 dict/list 时将大小限制为 5

输出:

Dict = {'A':[1,4,4,6,1],'B':[1,5],'C':[2,3,5]}

标签: pythonpandas

解决方案


pandas.DataFrame.groupby与 一起使用apply

df.groupby('col1')['col2'].apply(lambda x:list(x.head(5))).to_dict()

输出:

{'A': [1, 4, 4, 6, 1], 'B': [1, 5], 'C': [2, 3, 5]}

推荐阅读