r - 通过对异常值按组取中位数来纠正变量中的错误
问题描述
示例数据:
library(data.table)
set.seed(1)
DT <- data.table(panelID = sample(10,10),
some_NA = sample(0:5, 6),
some_NA_factor = sample(0:5, 6),
Group = c(rep(1,20),rep(2,20),rep(3,20),rep(4,20),rep(5,20)),
Time = rep(seq(as.Date("2010-01-03"), length=20, by="1 month") - 1,5),
wt = 15*round(runif(100)/10,2),
Income = round(rnorm(10,-5,5),2),
Happiness = sample(10,10),
Sex = round(rnorm(10,0.75,0.3),2),
Age = sample(100,100),
Height= 150*round(rnorm(10,0.75,0.3),2))
# ERRORS
DT [1:5,11] <- 0
我在Height
注册数据时遇到了一些错误。由于数据是面板数据,我应该能够Height
从其他观察中推断出实际数据。为了自动化这个过程,如果值距离中位数超过 50 厘米,我想用中位数替换一个值:
setDT(DT)[abs(median(Height, na.rm = TRUE) - Height) > 50 , newheight := median(Height, na.rm = TRUE), by=panelID]
然而,不知何故,这个by
论点不起作用,导致以下结果:
> table(DT$newheight)
0 27 165
4 10 10
谁能告诉我我做错了什么?
解决方案
您的问题在于操作顺序。首先,过滤器(即逗号前的位)正在应用于整个表格,因此这里计算的中位数是整个 Height 列的中位数。然后,逗号后的位在每个组内应用于过滤后的数据。因此,您实际上使用的是异常值的中位数,而不是整个组的中位数(我认为这是您的意图)。
一种解决方法可能是分阶段进行:
setDT(DT)
DT[, median.height:= median(Height, na.rm = TRUE), by='panelID']
DT[abs(Height - median.height) > 50, newheight:= median.height]
或者,您可能打算用此替换最后一行:
DT[, newheight:= fifelse(abs(Height - median.height) > 50, median.height, Height)]
推荐阅读
- docker - 如何使用 Docker 桌面停止 Docker(和 Kubernetes)?
- c# - Dot NET core 3.1 使用 MapControllerRoute 将参数传递给操作
- android - 如何使用范围存储更新 Android 11 中的媒体存储?
- excel - 如何获取活动 NamedSheetView 类的名称属性?
- c# - 无法通过客户端凭据提供程序流在通道中发送消息 - Microsoft Graph API
- flutter - Flutter IAP 未收到应用内购买付款
- python - 正则表达式在每个特殊字符(除了 \)和任何数字或字母(字母数字)之间添加一个空格。在 a 中隔离 SINGLR 特殊字符
- javascript - 函数 Number() { [native code] } JavaScript 中的错误
- asp.net-core - IConfiguration.GetSection 与 Where 选择器
- r - 在 pivot_wider() 中设置名称顺序