首页 > 解决方案 > 在R中合并两个具有相似数据的数据框

问题描述

我有两个数据集,df_2010 和 df_2013。df_2010 提供了 2010 年的数据,而 df_2013 提供了相同的数据,但更新到了 2013 年(只有 df_2010 的列不在 df_2013 中)。

head(df_2010)
  ID     village surveyor age school salary job_type rich 
1  1         Ara       2   40     5     413        0     1    
2  2       Buxar       1   35     4     618        0     1    
3  3     Sasaram       0   26     5     377        0     1    
4  4   Bodh Gaya       0   19     2     367        0     1    
5  5     Chhapra       3   40     4     265        0     1    
6  6 Muzaffarpur       0   22     3     325        0     1     

head(df_2013)
  ID      village surveyor  salary job_type
1  1         Ara        2 433.6500        0
2  2       Buxar        1 679.8000        1
3  3     Sasaram        0 395.8500        0
4  4   Bodh Gaya        0 359.6600        1
5  5     Chhapra        3 343.7817        1
6  6 Muzaffarpur        0 318.5000        1

我希望能够合并和附加这两个数据集,以便能够比较 2010 年和 2013 年之间的变化。

到目前为止,我已经创建了一个新的数据框:

df_new <- dplyr::full_join(df_2010, df_2013, by == "ID", "village")
head(df_new)
  ID      village surveyor.x age school salary.x job_type.x rich surveyor.y salary.y job_type.y
1  1         Ara         2    40     5       413        0     1         2   433.6500     0
2  2       Buxar         1    35     4       618        0     1         1   679.8000     1
3  3     Sasaram         0    26     5       377        0     1         0   395.8500     0
4  4   Bodh Gaya         0    19     2       367        0     1         0   359.6600     1
5  5     Chhapra         3    40     4       265        0     1         3   343.7817     1
6  6 Muzaffarpur         0    22     3       325        0     1         0   318.5000     1

但是,我希望能够比较 column.x 和 columns.y 之间的任何更改或任何缺失值,然后创建一个合并两个日期数据的列。有没有办法简单地做到这一点?

谢谢!

标签: r

解决方案


推荐阅读