首页 > 解决方案 > 如何找到具有因子和 NA 的 R 数据集

问题描述

我正在寻找附加到 R 包的标准数据集,可用于测试代码。我通常使用irisormtcars但它们只有一个因素变量并且没有缺失值。对于具有多个因子变量和 NA 的包/数据集的任何建议,或搜索包含的 R 数据集以获取特定标准的方法?

标签: r

解决方案


这是一种在包的数据集中搜索所需特征的编程方式:

available_datasets <- data(package='datasets')[['results']][, 3];

meets_reqs <- function(datasets) {
    sapply(datasets, function(ds) {
        dat <- get(sub(" .*", "", ds))
        hasfactors <- "factor" %in% sapply(dat, class)
        nas <- anyNA(dat)
        hasfactors && nas
    })
}

res <- meets_reqs(available_datasets)

res[1:3]
# AirPassengers                BJsales BJsales.lead (BJsales) 
#         FALSE                  FALSE                  FALSE 

res[res]
# attenu
#   TRUE

推荐阅读