r - 填写 data.table 缺失日期的最快方法(续)
问题描述
我正在寻找一种有效且快速的方法来填充缺失日期的表中的缺失数据。
library(data.table)
dt <- as.data.table(read.csv(textConnection('"date","gr1","gr2","x"
"2017-01-01","A","a",1
"2017-02-01","A","b",2
"2017-02-01","B","a",4
"2017-04-01","B","a",5
"2017-05-01","A","b",3')))
dt[,date := as.Date(date)]
假设此表包含x
bydate
和 groupsgr1
和的所有信息gr2
。我想通过重复x
bygr1
和的最后一个已知值来填充缺失的日期并扩展此表gr2
。我的方法如下:
# define the period to expand
date_min <- as.Date('2017-01-01')
date_max <- as.Date('2017-06-01')
dates <- setDT(list(ddate = seq.Date(date_min, date_max,by = 'month')))
# cast the data
dt.c <- dcast(dt, date~gr1+gr2, value.var = "x")
# fill missing dates
dt.c <- dt.c[dates, roll=Inf]
# melt the data to return to original table format
dt.m <- melt(dt.c, id.vars = "date", value.name = "x")
# split column - the slowest part of my code
dt.m[,c("gr1","gr2") := tstrsplit(variable,'_')][,variable:=NULL]
# remove unnecessary NAs
dt.m <- dt.m[complete.cases(dt.m[,x])][,.(date,gr1,gr2,x)]
setkey(dt.m)
这是我希望看到的输出:
> dt.m
date gr1 gr2 x
1: 2017-01-01 A a 1
2: 2017-02-01 A b 2
3: 2017-02-01 B a 4
4: 2017-03-01 A b 2
5: 2017-03-01 B a 4
6: 2017-04-01 B a 5
7: 2017-05-01 A b 3
8: 2017-06-01 A b 3
现在的问题是tstrsplit
在具有很多组的大型数据集上非常慢。
这种方法非常接近我的需要,但是如果我遵循它,我将无法获得所需的输出,因为它不仅填充了缺失的日期,还填充了 NA。这是我对示例的修改:
# the desired dates by group
date_min <- as.Date('2017-01-01')
date_max <- as.Date('2017-06-01')
indx <- dt[,.(date=seq(date_min,date_max,"months")),.(gr1,gr2)]
# key the tables and join them using a rolling join
setkey(dt,gr1,gr2,date)
setkey(indx,gr1,gr2,date)
dt0 <- dt[indx,roll=TRUE][,.(date,gr1,gr2,x)]
setkey(dt0,date)
这不是我期望看到的输出:
> dt0
date gr1 gr2 x
1: 2017-01-01 A a 1
2: 2017-01-01 A b NA
3: 2017-01-01 B a NA
4: 2017-02-01 A a 1
5: 2017-02-01 A b 2
6: 2017-02-01 B a 4
7: 2017-03-01 A a 1
8: 2017-03-01 A b 2
9: 2017-03-01 B a 4
10: 2017-04-01 A a 1
11: 2017-04-01 A b 2
12: 2017-04-01 B a 5
13: 2017-05-01 A a 1
14: 2017-05-01 A b 3
15: 2017-05-01 B a 5
16: 2017-06-01 A a 1
17: 2017-06-01 A b 3
18: 2017-06-01 B a 5
在 ( ) 上重现我的输出的最佳(最快)方法是dt.m
什么?
解决方案
在滚动加入时,一个“正常”加入和一些列切换,aaa 并且你完成了 :)
temp <- dates[, near.date := dt[dates, x.date, on = .(date=ddate), roll = TRUE, mult = "first"]][]
dt[temp, on = .(date = near.date)][, date := ddate][,ddate := NULL][]
# date gr1 gr2 x
# 1: 2017-01-01 A a 1
# 2: 2017-02-01 A b 2
# 3: 2017-02-01 B a 4
# 4: 2017-03-01 A b 2
# 5: 2017-03-01 B a 4
# 6: 2017-04-01 B a 5
# 7: 2017-05-01 A b 3
# 8: 2017-06-01 A b 3
您可以(当然)通过将第一行集成到最后一行来使其成为单行。
推荐阅读
- r - 如何正确模拟平滑样条的偏差和方差?
- kendo-ui - 如何在 kendo angular UI 的下拉菜单中包含树视图
- php - 如何使用 Monolog 在日志文件中输出带有新行的字符串?
- angular - RouterTestingModule 未提供位置提供程序
- angular - Angular 4+ 中的波兰语语言环境
- amazon-web-services - 有时无法访问托管在 EC2 实例上的 Web 服务
- php - 从两个数组创建一个数组并分别组合值
- c# - MailItem 附件未知
- java - 谁创建了这些线程?
- python - 仅在 pandas 中保留属于最大组的行