python - 如何使用“命名聚合”
问题描述
我想在 pandas DataFrameGroupBy 的同一列上应用两个不同的聚合并命名新列。
我尝试使用文档中显示的内容。 https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#named-aggregation
In [82]: animals.groupby("kind").agg( ....: min_height=('height', 'min'), ....: max_height=('height', 'max'), ....: average_weight=('weight', np.mean), ....: ) ....: Out[82]: min_height max_height average_weight kind cat 9.1 9.5 8.90 dog 6.0 34.0 102.75
我正在尝试做的事情是:
df = pd.DataFrame({"year": [2001, 2001, 2001, 2005, 2005],
"value": [1, 2, 5, 3, 1]})
df = df.groupby("year").agg(sum=('value', 'sum'),
count=('value', 'size'))
但是,这给出了以下内容:
TypeError: aggregate() missing 1 required positional argument: 'arg'
解决方案
由于一列需要两个 aggfunction ,因此您可能需要像未将您更新pandas
到 0.25.0时一样传递给列表
df = df.groupby("year").value.agg(['sum','count'])
df
sum count
year
2001 8 3
2005 4 2
在pandas
0.25.0
pd.__version__
'0.25.0'
df = df.groupby("year").agg(sum=('value', 'sum'),
count=('value', 'count'))
df
sum count
year
2001 8 3
2005 4 2
推荐阅读
- c - 对二维数组的“memset”的混淆和“free”的错误
- authentication - Auth0 Legacy Lock API 弃用
- rest - 我的 api 应该如何处理通过 auth0 的登录?
- r - R中的相似性
- powershell - Powershell 事件日志报告
- docker - Kubernetes (Minikube):环境变量
- javascript - Google 地方详情 opening_hours
- python - IP 地址并不总是用 socket.gethostbyname 解析
- python-3.x - 可以用硒读取元素
- java - 带有 JSON 和 XML 泛型的 Jersey Jackson 自定义响应