首页 > 解决方案 > R中的多文件处理,循环变量进行数据处理

问题描述

我编写了几个函数来清理和处理来自美国社区调查 (ACS) 的 15 个样本。这个工作流程非常费力且重复:读取每个文件,应用我的功能,然后进入下一个调查年度。

我目前的工作流程是这样的:

library(tidyverse)
library(ids)
wage_2005 <- haven::read_dta("~/Data/ACS/2005_ACS.dta") %>%
  gen.wages(wage_2005) %>%
  reg.variables() %>%
  wage.adj(year = 2005) %>%
  wage.sample(year = 2005)

然后继续到 2006 年、2007 年,以此类推,直到 2019 年。例如,

wage_2006 <- haven::read_dta("~/Data/ACS/2006_ACS.dta") %>%
  gen.wages(wage_2006) %>%
  reg.variables() %>%
  wage.adj(year = 2006) %>%
  wage.sample(year = 2006)

我想要的是使用我的清洁功能处理每个样本,依次遍历文件并使用每个文件中的 year 变量,以便对每个调查年份应用适当的处理,然后获取并存储每个调查的结果列表中的年份。

作为第一步,我编写了一些代码,使用 sapply 函数读取文件:

files <- list.files(path = "~/Data/ACS" , full.names = TRUE)

data_files <- sapply(files, function(x) {
  df <- haven::read_dta(file = paste0(x)), 
                USE.NAMES = TRUE, 
                simplify = FALSE
                }
)

但这需要大量的存储空间,因为文件来自人口普查局并且非常大。我被困在迭代处理每个文件、应用我的函数并将结果存储在列表中的后续步骤上。

一些伪代码可以给出更清晰的想法:

例如说我有三组数据,比如

acs_2005 <- 
  data.frame(id = random_id(n = 1000, bytes = 16, use_openssl = TRUE), 
             wage = runif(1000, min = 0, max = 100), 
             year = 2005)
acs_2006 <- 
  data.frame(id = random_id(n = 1000, bytes = 16, use_openssl = TRUE), 
             wage = runif(1000, min = 0, max = 100), 
             year = 2006)

acs_2007 <- 
  data.frame(id = random_id(n = 1000, bytes = 16, use_openssl = TRUE), 
             wage = runif(1000, min = 0, max = 100), 
             year = 2007)
data <- list(acs_2005, acs_2006, acs_2007)

假设它们将作为 csv 文件读入

lapply(1:length(data_list), function(i) write.csv(data_list[[i]], 
                                                file = paste0(names(data_list[i]), ".csv"),
                                                row.names = FALSE))

我的自定义功能是,

wage_summarize <- 
  function(df, year) {
    mutate(df, wage = case_when(
    year == 2005 ~ wage/0.7903,
    year == 2006 ~ wage/0.8112,
    year == 2007 ~ wage/0.8323)) %>%
    group_by(year) %>%
      summarize(wage = mean(wage, na.rm = TRUE))
  }

当函数依赖年份变量以执行操作时,我将如何遍历此数据框列表?在这种情况下,假设调整通货膨胀?

任何帮助或指导将不胜感激,谢谢!

标签: rparallel-processingmultiprocessing

解决方案


这应该作为您提供的信息的指导,

library(tidyverse)


# Simulate multiple data
# that has been loaded by some
# read_data-function
data_list <- list(
        mtcars,
        diamonds,
        iris
)


# Iterate through the list
# of data with some function
data_list <- data_list %>% map(
        .f = function(x) {
                
                x %>% mutate(
                        row_id = row_number()
                )
                
                
        }
)

这里我们加载data并存储在一个列表中——它模拟我们当时读取一个数据。我们在 using 上应用了一些功能dplyr。它输出list相同长度的a!

请参阅使用 Dplyr进行编程以获取有关对数据实施自定义的更多信息functions

如果您想在 中执行此操作parallel,这也是可能的 - 但这是特定于操作系统的。如果你在,UNIX那么mclapply()就是你的首选功能。

你要求一些指导,这是我可以用你提供的信息提供的。


推荐阅读