首页 > 解决方案 > 如何将“事件”数据转换为面板数据?

问题描述

我有一些零售分店的数据和他们关闭的日期,如果他们没有关闭,那么这是 NA。我想扩展这些数据,使它们成为一个面板,带有一个 0/​​1 指示器,以显示该分支是否在该年或随后几年关闭。

这是我拥有的数据格式和我想要的数据格式的示例。这里的数据涵盖了 2015 年至 2019 年的 5 年期间。分行 A、B 和 D 保持营业,但分行 C 于 2016 年关闭,分行 E 于 2019 年关闭。

branch <- LETTERS[1:5]
yearclosed <- c(NA, NA, 2016, NA, 2019)

have.df <- data.frame(branch, yearclosed)
have.df

branch <- c(rep("A",5), rep("B",5), rep("C",5), rep("D",5), rep("E",5))
year <- rep(2015:2019, 5)
closed <-c (rep(0,5), rep(0,5), 0,1,1,1,1, rep(0,5), 0,0,0,0,1)

want.df <- data.frame(branch, year, closed)
want.df

我曾尝试尝试从宽格式转换为长格式,但没有取得太大进展。我可以编写几个 for 循环,但这些通常不是 R 中的最佳解决方案?有没有人有类似的经历可以分享给我?谢谢。

标签: rdataframedataformatlong-format-data

解决方案


从问题到生成的代码have.df

branch <- LETTERS[1:5]
yearclosed <- c(NA, NA, 2016, NA, 2019)
have.df <- data.frame(branch, yearclosed)

加载库

library(dplyr)
library(tidyr)

have.df通过修剪缺失、重命名并为每一行yearclosed创建一个新closed列来准备。1

have.df <- 
  have.df |> 
  filter(!is.na(yearclosed)) |> 
  rename(year = yearclosed) |> 
  mutate(closed = 1)

使用tidyr::expand_grid()我们可以创建您想要的 data.frame 的前两列,然后将其与修改后的内容连接have.df以获得您正在寻找的结果。使用group_by()andfill()我们可以将初始关闭年份之后的所有年份设置为 1。mutate()coalesce()帮助我们将所有缺失值设置closed0

expand_grid(branch = LETTERS[1:5], year = 2015:2019) |> 
  left_join(have.df) |> 
  group_by(branch) |> 
  fill(closed) |> 
  mutate(closed = coalesce(closed, 0)) |> 
  print(n = 25)
#> Joining, by = c("branch", "year")
#> # A tibble: 25 × 3
#>    branch  year closed
#>    <chr>  <dbl>  <dbl>
#>  1 A       2015      0
#>  2 A       2016      0
#>  3 A       2017      0
#>  4 A       2018      0
#>  5 A       2019      0
#>  6 B       2015      0
#>  7 B       2016      0
#>  8 B       2017      0
#>  9 B       2018      0
#> 10 B       2019      0
#> 11 C       2015      0
#> 12 C       2016      1
#> 13 C       2017      1
#> 14 C       2018      1
#> 15 C       2019      1
#> 16 D       2015      0
#> 17 D       2016      0
#> 18 D       2017      0
#> 19 D       2018      0
#> 20 D       2019      0
#> 21 E       2015      0
#> 22 E       2016      0
#> 23 E       2017      0
#> 24 E       2018      0
#> 25 E       2019      1

推荐阅读