首页 > 解决方案 > 将二进制分类变量转换为 0 和 1

问题描述

我有一个数据集,其中结果变量是二元分类变量“诊断”,它是肿瘤的类型:“良性”或“恶性”。

将变量转换为数字时(“良性”=0 和“恶性”=1),我使用以下代码:

tumor.df <- fread("df.csv", stringsAsFactors = T)
tumor.df$diagnosis = as.numeric(tumor.df$diagnosis, levels=c('benign', 'malignant'), labels=c(0, 1))

但是,诊断不是转换为 0 和 1,而是转换为 1 和 2。为什么会这样?

标签: rlabelnumericcategorical-datalevels

解决方案


因为 R 将因子存储为一组基础整数代码(从 1 开始)和一组相关标签。

我会说你应该继续从你得到的值中减去一个。还有很多其他方法可以进行转换,它们的效率和可读性各不相同。另一种选择是as.numeric(tumor.df$diagnosis=="malignant")(R 转换FALSE为 0TRUE到 1)


推荐阅读