首页 > 解决方案 > 如何对python中数据框列中的唯一值执行函数

问题描述

我有大约 500 万条记录的数据,如下图所示,我需要获取新数据框中每个 ID 的最大值和平均值,以便每个 ID 只有一个值

我对 python 和编程很陌生,这个小组很有帮助,但我似乎没有找到这个特定问题的相关答案。谢谢

在此处输入图像描述

标签: pythonpandaspandas-groupby

解决方案


这应该这样做:

import numpy as np
import pandas as pd

# create dummy data
ids = [1,1,1,1,2,2,2,2,2,3,3,3,3,4,4,4,4]
values = [13,21,34,22,34,2,3,34,12,45,45,23,67,76,32,23,80]
df = pd.DataFrame({'ID': ids, 'Values': values})

df = df.groupby('ID').agg({'Values': [min, max, np.mean]})  # group by on ID and calculate new columns min, max, mean for the values columns
df.columns = df.columns.droplevel(0)  # get rid of the multilevel columns due to the grouping
df.reset_index()

编辑:感谢 ALollz 指出以下快捷方式(避免多级索引):

df = df.groupby('ID')['Values'].agg([min, max, np.mean])  # group by on ID and calculate new columns min, max, mean for the values columns
df.reset_index()

让我知道是否有任何步骤需要详细说明。


推荐阅读