r - 将相同的因子水平应用于 R 中具有不同水平数量的多个变量
问题描述
我有一个data.table
with168 variables
和8,278 observations
。变量69:135
最初存储为字符串。他们应该成为区域假人,我想最终达到 2 级(=是,公司在这里经营)和 1 级(=否,公司不在这里经营)。问题在于原始变量中有三种不同的输入组合:1)“TRUE”、“1”、“0”、“FALSE”、2)“TRUE”、“FALSE”和 3)“1” ,“0”。此外,大约。5 个变量只有一个值,“0”或“1”。这里给出一个例子:
#generating replicable data
structure(list(
region1 = structure(c("TRUE", "FALSE", "0", "1", NA), class = "character"),
region2 = structure(c("1", "1", "0", NA, NA), class = "character"),
region3 = structure(c(NA, "FALSE", "TRUE", NA, "FALSE"), class = "character"),
region4 = structure(c(NA, "0", "0", NA, "0"), class = "character")),
.Names = c("region1", "region2", "region3", "region4"), row.names = c(NA, 5), class = "data.table")
#this gives:
# region1 region2 region3 region4
#1 TRUE 1 <NA> <NA>
#2 FALSE 1 FALSE 0
#3 0 0 TRUE 0
#4 1 <NA> <NA> <NA>
#5 <NA> <NA> FALSE 0
我正在寻找一种方法,一次将所有变量的“TRUE”和“1”替换为 2,将“FALSE”和“0”替换为 1。所以想要的结果是:
# region1 region2 region3 region4
#1: 2 2 NA NA
#2: 1 2 1 1
#3: 1 1 2 1
#4: 2 NA NA NA
#5: NA NA 1 1
我已经看过了
将因子水平应用于缺少因子水平 和 多因子变量变化水平的多列。
但是,这对我没有帮助。
我使用嵌套ifelse()
命令尝试了以下操作:
library(data.table)
library(forcats)
check <- cbind(dt[1:68], as.data.table(apply(dt[69:135], 2, function(x) {
ifelse("1" %in% x & "TRUE" %in% x,
fct_collapse(x,
"2" = c("TRUE",
"1"),
"1" = c("FALSE",
"0")
),
ifelse("1" %in% x & !("TRUE" %in% x),
fct_collapse(x,
"2" = "1",
"1" = "0"),
fct_collapse(x,
"2" = "TRUE",
"1" = "FALSE"
)))
}
)), dt[136:168])
但是前面的代码并没有给我想要的结果。它运行但我收到一条警告消息,并且在检查各自的变量时,它们仍然存储为带有原始输入的字符串。
# examples of warnings
1: Unknown levels in `f`: TRUE, FALSE
2: Unknown levels in `f`: TRUE, FALSE
3: Unknown levels in `f`: TRUE, FALSE
4: Unknown levels in `f`: 0
5: Unknown levels in `f`: TRUE, FALSE
6: Unknown levels in `f`: TRUE, FALSE
7: Unknown levels in `f`: 0
在它们自己以及不与fct_collapse
嵌套ifelse()
命令结合时执行这项工作:
#the ifelse statement works
ifelse("TRUE" %in% dt$region1, 2, "FALSE")
ifelse(5 %in% dt$region1, 2, "FALSE")
#also the nested ifelse statement works
ifelse("1" %in% dt$region1 & "TRUE" %in% dt$region1,
0,
ifelse("1" %in% dt$region1 & !("TRUE" %in% dt$region1),
1,
2
))
ifelse("1" %in% dt$region2 & "TRUE" %in% dt$region2,
0,
ifelse("1" %in% dt$region2 & !("TRUE" %in% dt$region2),
1,
2
))
有谁知道如何解决这个问题?
非常感谢您提前提供任何建议!
解决方案
这是一种在循环中set()
调用的方法。for
library(data.table)
f <- function(x){
x <- as.character(x)
i1 <- x %in% c("TRUE", "1")
i0 <- x %in% c("FALSE", "0")
x[which(i1)] <- "2"
x[which(i0)] <- "1"
as.integer(x)
}
for (j in seq_along(dt)) set(dt, j = j, value = f(dt[[j]]))
dt
# region1 region2 region3 region4
#1: 2 2 NA NA
#2: 1 2 1 1
#3: 1 1 2 1
#4: 2 NA NA NA
#5: NA NA 1 1
感谢jangorecki的评论,一个更简单的方法是
dt[, names(dt) := lapply(dt, f)]
推荐阅读
- c# - 使用 Net Core MVC 中的接口从 Projects Controller 层使用 API 层服务方法
- api - eyeson api 页面“api.eyeson.team”。未找到此页面。有没有其他方法可以访问它?
- ios - 如果以模态方式呈现,则获取最顶层的 UIViewController
- json - 在 Zapier 中,“GET”函数后跟一个带有自定义 JSON 请求的“POST”
- powerbi - PowerBI 使用具有空值的主键
- python - 如何将数据拟合到 octave/python 中的给定理论模型?
- sql - 查询获取一个月的最后一个日期
- c# - 引诱报告中TestCaseSource的分组
- javascript - 如何在猫鼬的数组中返回匹配的对象
- html - SVG 中的 ai2html_Grouped 路径