r - 如何检查我的数据框中的日期范围是否与另一个数据框中的任何(特定于 ID)范围重叠
问题描述
我有 2 个数据框 (DF),每个都包含标识符和日期范围。在两个 DF 中,每个 ID 都可以有多个日期范围。
我想要做的是从第一个 DF (DF.A) 中选择第二个 DF (DF.B) 中存在任意长度重叠间隔的行。
df.A <- data.frame("ID" = c(1,1,1,2,3,3),
"Start.A" = c("2019-01-01", "2019-03-15", "2019-06-10", "2017-01-01", "2015-05-10", "2015-05-15"),
"End.A" = c("2019-01-31", "2019-04-15", "2019-07-09", "2017-01-31", "2015-06-10", "2015-06-02"))
df.B <- data.frame("ID" = c(1,1,1,3,3),
"Start.B" = c("2019-01-01", "2019-02-01", "2019-03-01", "2015-06-01", "2015-07-01"),
"End.B" = c("2019-01-31", "2019-02-28", "2019-03-31", "2015-06-30", "2015-07-31"))
数据框A:
ID Start.A End.A
1 2019-01-01 2019-01-31
1 2019-03-15 2019-04-15
1 2019-06-10 2019-07-09
2 2017-01-01 2017-01-31
3 2015-05-10 2015-06-10
3 2015-05-15 2015-06-02
数据框 B:
ID Start.B End.B
1 2019-01-01 2019-01-31
1 2019-02-01 2019-02-28
1 2019-03-01 2019-03-31
3 2015-06-01 2015-06-30
3 2015-07-01 2015-07-31
我想要,因为我的输出是:
ID Start.A End.A
1 2019-01-01 2019-01-31
1 2019-03-15 2019-04-15
3 2015-05-10 2015-06-10
3 2015-05-15 2015-06-02
如果我有一对一的匹配,我想我可以毫无问题地做到这一点,但是正如我所提到的,在两个 DF 中,每个 ID 都有很多观察结果。我已经尝试过尝试应用 lubridate 的间隔,但我正在努力解决如何查找重叠,同时处理必须在 DF.B 中查找所有相应 ID 以进行潜在匹配的额外复杂性。
这是一个非常大的数据集(DF.A 中 > 500 万个观测值,DF.B 中 > 200 万个观测值),因此速度至关重要。任何有关转换数据以使此操作尽可能快的建议也将不胜感激。
如果有帮助:对于给定的 ID,DF.A 的观测值可能与 DF.A 中的其他观测值重叠(例如上面玩具示例中的 ID 3)。相反,DF.B 区间之间不能有重叠。
解决方案
这个怎么样 ?
library(data.table)
df.A <- data.table("ID" = c(1,1,1,2,3,3),
"Start.A" = c("2019-01-01", "2019-03-15", "2019-06-10", "2017-01-01", "2015-05-10", "2015-05-15"),
"End.A" = c("2019-01-31", "2019-04-15", "2019-07-09", "2017-01-31", "2015-06-10", "2015-06-02"))
df.B <- data.table("ID" = c(1,1,1,3,3),
"Start.B" = c("2019-01-01", "2019-02-01", "2019-03-01", "2015-06-01", "2015-07-01"),
"End.B" = c("2019-01-31", "2019-02-28", "2019-03-31", "2015-06-30", "2015-07-31"))
和
DF = merge(df.A, df.B , by ='ID',allow.cartesian = TRUE)
DF$SEQ_DATE.A = apply(DF[,c('Start.A','End.A'), with=F],1, function(x){paste(x,collapse = ',')})
DF$SEQ_DATE.A = unlist(lapply(strsplit(DF$SEQ_DATE.A,','),function(x){
out = seq(as.Date(x[1]),as.Date(x[2]),by = 'day')
out = paste(out, collapse = '|')
return(out)
}
))
DF$SEQ_DATE.B = apply(DF[,c('Start.B','End.B'), with=F],1, function(x){paste(x,collapse = ',')})
DF$SEQ_DATE.B = unlist(lapply(strsplit(DF$SEQ_DATE.B,','),function(x){
out = seq(as.Date(x[1]),as.Date(x[2]),by = 'day')
out = paste(out, collapse = '|')
return(out)
}
))
DF$Result= apply(DF[,c('SEQ_DATE.A','SEQ_DATE.B'), with = F], 1, function(x){grepl(x[1],x[2])})
结果如下所示:
> DF[,-c('SEQ_DATE.A','SEQ_DATE.B'), with =F][Result == 'TRUE']
ID Start.A End.A Start.B End.B Result
1: 1 2019-01-01 2019-01-31 2019-01-01 2019-01-31 TRUE
2: 1 2019-03-15 2019-04-15 2019-03-01 2019-03-31 TRUE
3: 3 2015-05-10 2015-06-10 2015-06-01 2015-06-30 TRUE
4: 3 2015-05-15 2015-06-02 2015-06-01 2015-06-30 TRUE
推荐阅读
- asp.net - 将查询结果转换/解析为字符串 .NET Core
- arrays - Angular 6+:从@input 在 ngFor 中传递数组名称
- c# - Google Speech To Text API:启用 Word Confidence Not Found
- javascript - JavaScript 简单的脏话过滤器
- php - SonarQube - 字符串文字不应重复
- javascript - gulp 4 & babel 7 - 你忘记发出异步完成信号了吗?
- javascript - 如何插入一行作为倒数第二行?
- tensorflow - 是否可以训练具有“拆分”输出的神经网络
- java - MessageQueue 中的 ANR enqueuemessage、removemessage、next
- css-selectors - hasClass 方法不返回布尔结果