首页 > 解决方案 > 从 R 中的表中获取累积死亡率计数数据

问题描述

我有一张每年不同年龄的死亡表格,格式如下:

Year    Age Deaths
1923    1   30
1923    2   22
1923    3   10
1923    4   12
1923    5   4
1923    1   40
1924    2   11
1924    3   10
1924    4   3
1924    5   5
1924    1   40
1924    2   24
1924    3   32
1924    4   12
1924    5   3

每年的年龄范围实际上一直到 100 年,并且年数一直到 2020 年,但我以缩短表格为例。我想回答这个问题:“ X % 的 1923 年出生的人在几岁时不再活着?” 我知道有Y人出生于 1923 年。因此,为了跟踪这个队列,我想通读表格,找出 1924 年有多少 1 岁儿童死亡,1925 年有多少 2 岁儿童死亡,等等。找出1923 年出生的Y人中有X %不再生活的年份。

当我在寻找每一年时,有没有人对如何在 R 中进行这种累积计数有任何建议,并且在计数时,我每年想要的行的年龄应该增加 +1。我会对 tidyverse 的答案特别感兴趣(我想他们会涉及使用 Purr?),因为这是我一直在努力学习的,但任何建议都值得赞赏。

提前感谢您的帮助和建议。

标签: rdataframetidyversecumulative-sum

解决方案


听起来您可能想首先确定可以代表哪个出生年份的群组。然后,您可以group_by出生年份并计算累积死亡人数。我为此示例编写了一些示例数据。

library(tidyverse)

df %>%
  mutate(BirthYear = Year - Age) %>%
  group_by(BirthYear) %>%
  mutate(CumDeath = cumsum(Deaths)) %>%
  arrange(BirthYear)

输出

    Year   Age Deaths BirthYear CumDeath
   <dbl> <int>  <int>     <dbl>    <int>
 1  1923     5     42      1918       42
 2  1923     4      3      1919        3
 3  1924     5     25      1919       28
 4  1923     3     14      1920       14
 5  1924     4     14      1920       28
 6  1925     5     28      1920       56
 7  1923     2     15      1921       15
 8  1924     3     37      1921       52
 9  1925     4     27      1921       79
10  1923     1     31      1922       31
11  1924     2     43      1922       74
12  1925     3      5      1922       79
13  1924     1     50      1923       50
14  1925     2     27      1923       77
15  1925     1     26      1924       26

数据

df <- structure(list(Year = c(1923, 1923, 1923, 1923, 1923, 1924, 1924, 
1924, 1924, 1924, 1925, 1925, 1925, 1925, 1925), Age = c(1L, 
2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L, 1L, 2L, 3L, 4L, 5L), Deaths = c(31L, 
15L, 14L, 3L, 42L, 50L, 43L, 37L, 14L, 25L, 26L, 27L, 5L, 27L, 
28L)), class = "data.frame", row.names = c(NA, -15L))

推荐阅读