r - Dplyr 给出错误的结果
问题描述
我正在使用 dplyr 来总结数据集,但它给出了错误的结果。我的代码是 bekow :-
Raw_Grp<-Raw_data%>%dplyr::group_by(as.character(Raw_data$Gardu))
`%>%dplyr::summarize(Avg=mean(Raw_data$Age))
下面是str: -
data.frame': 3016 obs. of 2 variables:
$ Kecamatan: chr "CENGKARENG" "CENGKARENG" "CENGKARENG" "CENGKARENG" ...
$ Age : num 377 370 352 313 299 291 260 223 207 200 ...
理想情况下,我应该按组值获取,但我得到的总平均值显示在所有不同的组中。我已经搜索并尝试了最大的可能性,例如创建 data.table 但结果相同。如果我在 excel 或其他收费中检查组,它会给出完美的结果。请帮忙
解决方案
当我们使用时,它会提取破坏条件Raw_data$columnname
的整个列。group_by
因此,语法将只是感兴趣列的列名
library(dplyr)
Raw_data %>%
group_by(Gardu) %>%
summarise(Avg = mean(Age))
但是,有些情况下我们需要整列。例如,如果我们想检查 'Gardu' 中有多少 'Age' 元素小于整个 'Age' 列值
Raw_data %>%
group_by(Gardu) %>%
summarise(n = sum(Age < .$Age))
数据
Raw_data <- structure(list(Gardu = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L,
2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L), .Label = c("a", "b", "c"), class = "factor"),
Age = c(21L, 19L, 38L, 31L, 37L, 47L, 21L, 41L, 42L, 20L,
34L, 25L, 37L, 37L, 23L)), class = "data.frame", row.names = c(NA,
-15L))
推荐阅读
- reporting-services - SSRS - 选择多个值时,多值参数会引发错误
- reactjs - 有没有办法在部署后更改 AWS Amplify 身份验证设置?
- java - 如何使用 GitHub API for Java 获取有关存储库的信息并安装 GitHub 应用程序?
- git - 在 git 合并期间,我如何查看正在合并的提交
- javascript - 即使在定义标头之后,也获得“请求的资源上不存在'Access-Control-Allow-Origin'标头”
- artificial-intelligence - 自定义培训 将 PDF 提取到表格中
- django - 如何在单行 linux (openshift / docker) 中执行多个命令
- javascript - 如何在 json 数组中组合 2 个对象并给出逗号?
- java - 使用包含 id 的对象在 Java 中创建通用函数
- html - Powershell Send-Mailmessage HTML IMG 源不正确显示-有时