首页 > 解决方案 > 为字符变量创建标签列

问题描述

假设我有这个只有字符变量的示例数据集。

dxe1<-c("W07XXXA", "NULL", "3")
dxe1_poa<-c("Y","NULL","N")
dxe2<-c("NULL","NULL","NULL")
dxe2_poa<-c("NULL","NULL","NULL")
df3 <- data.frame(dxe1,dxe1_poa, dxe2,dxe2_poa)

我想标记变量,所以我为它们创建了一个标签向量:

var.labels = c(dxe1="External Cause of Injury Diagnosis 1",
               dxe1_poa="External Cause of Injury Diagnosis 1 - Present on Admission", dxe2="External Cause of Injury Diagnosis 2", dxe2_poa="External Cause of Injury Diagnosis 2 - Present on Admission")

label(df3) = as.list(var.labels[match(names(df3), names(var.labels))])

label(df3)

我的目标是创建一个类似于下面的表,也就是说,我想要一个标签列来给出变量描述。我只希望丢失的观察结果显示为统计数据,而不是 min、max、mean、sd。它们应该只是如下表所示。

在此处输入图像描述

我正在尝试使用以下一组代码:

df3 <- Filter(is.character, df3)
Variables <- names(df3)
Label <- label(df3)
Missing <- sapply(df3, function(x) sum(is.na(x)))
Type <- sapply(df3, function(x) {tmp <- class(x);if(length(x) > 1) tmp[2] else tmp[1]})
Min <- sapply(df3, function(x) min(x, na.rm = TRUE))
Max <- sapply(df3, function(x) max(x, na.rm = TRUE))
SD <- sapply(df3, function(x) format(round(sd(x, na.rm=TRUE), 2), nsmall = 2))
Mean <- sapply(df3, function(x) format(round(mean(x, na.rm=TRUE), 2), nsmall = 2))
#To get the Latex table for the rows 
knitr::kable(data.frame(Variables, Label, Missing, Type, Min, Max, Mean, SD, row.names = NULL), "latex")

但是,使用上面的代码集,仍然显示平均值和 SD 的统计信息。我想让它们像上表一样显示为“na”。有什么建议么?此外,我在字符形式中出现了最小值和最大值。我只想显示数字形式。

标签: rdataframelabelsummary

解决方案


你可以试试这个:

df3 <- Filter(is.character, df3)
Variables <- names(df3)
Label <- label(df3)
Missing <- sapply(df3, function(x) sum(is.na(x)))
Type <- sapply(df3, function(x) {tmp <- class(x);if(length(x) > 1) tmp[2] else tmp[1]})
Min <- 'n.a'
Max <- 'n.a'
SD <- 'n.a'
Mean <- 'n.a'
#To get the Latex table for the rows 
knitr::kable(data.frame(Variables, Label, Missing, Type, Min, Max, Mean, SD, row.names = NULL), "latex")

推荐阅读