首页 > 解决方案 > 计算一列的重复观察值但另一列的值不同的平均值

问题描述

数据框的子集,其中前两个和最后两个观察是我想要解决的示例。

我有这个包含大约 35'000 个观察值的数据框。问题是大约有 5'000 次出现(如图像的前两行和最后两行所示),因此我有两个与相同 COD_DOM 相关但具有不同 RENDIMENTO 值的观察结果。我想要的是计算出现两次的所有 COD_DOM 的平均 RENDIMENTO,因此只保留一个带有平均值的观察值。

标签: r

解决方案


如果您的 data.frame 只是这两列,您应该可以使用:

library(dplyr)

new_df <- data.frame %>%
     group_by(COD_DOM) %>%
     summarize(RENDIMENTO=mean(RENDIMENTO))

推荐阅读