首页 > 解决方案 > 无法在 pandas 中使用 .agg 方法调用函数?

问题描述

我正在尝试在 DataCamp 上使用 Python 完成 Pandas 课程并遇到了问题。我得到了解决方案,但我只想问。测验很简单:对一组数据使用 numpy 函数

这是他们完成这个小测验的建议提示:

.agg() can take in a list of functions. The functions shouldn't be called, so don't use parentheses with them.

weekly_sales这是我查找每个商店的最小值、最大值和中值的代码type

sales_stats = sales.groupby("type")["weekly_sales"].agg([np.min(), np.max(), np.mean(), np.median()])

这是错误:

File "<stdin>", line 4, in mean
TypeError: _mean_dispatcher() missing 1 required positional argument: 'a'

所以我将其更改为:

sales_stats = sales.groupby("type")["weekly_sales"].agg([np.mean(sales["weekly_sales"]),np.median,np.min,np.max])

但是出现另一个错误,所以我看看解决方案:

sales_stats = sales.groupby("type")["weekly_sales"].agg([np.min, np.max, np.mean, np.median])

这是否意味着我们不必向这些 numpy 方法传递任何参数?并且 .agg 函数会将“weekly_sales”作为参数传递给他们每个人?如果是这样,如果我想将两个参数传递给这些方法,例如monthly_sales这是正确的方法吗?

sales_stats = sales.groupby("type")["weekly_sales","monthly_sales"].agg([np.min, np.max, np.mean, np.median])

标签: pythonpandasaggregation

解决方案


您非常接近,但正确的语法是:

sales_stats = (
    sales.groupby("type")[["weekly_sales","monthly_sales"]]
    .agg([np.min, np.max, np.mean, np.median])
)

这是因为,从一个对象中选择多个列,DataFrame在这种情况下是一个Groupby对象,需要一个列名列表。此代码段将返回“weekly_sales”和“monthly_sales”列的最小值、最大值、平均值和中位数 - 按“类型”分组。

这是否意味着我们不必向这些 numpy 方法传递任何参数?并且 .agg 函数会将“weekly_sales”作为参数传递给他们每个人?如果是这样,如果我想将两个参数传递给这些方法,例如monthly_sales,这是正确的方法吗?

参数(在这种情况下是每个子数组)由 pandas 在后台传递给聚合函数。

如果你想要一些更细粒度的控制,你可以像这样传递一个字典:

sales_stats = (
    sales.groupby("type")
    .agg({
        "weekly_sales": np.mean, 
        "monthly_sales": [np.min, np.max]
    })
)

这将返回“weekly_sales”的平均值以及“monthly_sales”的最小值和最大值。查看 [ 中的一些示例


推荐阅读