r - ddply 和 group_by 的更快替代方案
问题描述
我试图找出循环遍历 data.frame 的最佳方法myData
,按两列分组,c1
和c2
. 具体来说,我想遍历 和 的每个独特组合,c1
并将c2
某个组合customFunction
应用于myData
. 这customFunction
取决于someStatsFunction
,它输出 a data.frame
。
我通常会使用函数plyr::ddply
,但我的真实数据集有超过 1800 万行,这并不奇怪,这花费了太长时间。所以我决定使用dplyr::group_by
and改变管道的方法dplyr::do
。尽管使用dplyr
加速了问题(参见下面的最小示例),但仍然需要相当长的时间。我听说这个data.table
框架可以加快速度(见这里的例子),但我不知道如何使用它。我想知道是否有人可以使用以下方法翻译我的问题,data.table
以便我也可以对其进行基准测试。
library(plyr)
library(dplyr)
library(rbenchmark)
someStatsFunction <- function (x) {
data.frame(name = 'something', mean = mean(x), sd = sd(x), statx = sqrt(mean(abs(x)))/sd(x)^2)
}
customFunction <- function (data) {
if (!all(sort(data$time) == data$time)) {
stop('Column \'time\' is not ordered')
}
someStatsFunction(data$response)
}
myData <- data.frame(c1 = rep(rep(1:50, each = 30), 10), c2 = rep(rep(1:30, 50), 10), response = rnorm(30 * 50 * 10), time = 1:(30 * 50 * 10))
benchmark('testPlyr' = {
testPlyr <- plyr::ddply(myData, .(c1, c2), customFunction)
},
'testDplyr' = {
testDplyr <- myData %>% dplyr::group_by(c1,c2) %>% dplyr::do(customFunction(.))
},
replications = 3,
columns = c('test', 'replications', 'elapsed', 'relative', 'user.self', 'sys.self'))
这是我得到的输出:
test replications elapsed relative user.self sys.self
2 testDplyr 3 7.416 1.00 7.368 0.060
1 testPlyr 3 8.378 1.13 8.364 0.012
谢谢,
D
@minem回答后更新
首先,我对上面的示例进行了一些修复,因为代码不正确。
其次,我扩展了上面的最小可重现示例,以更好地(稍微)反映我的情况。这someStatsFunction
可能取决于 data.table 中的多个列,并根据从这些多列派生的一些重要的统计信息组合来处理一堆数字。我还增加了的大小myData
(因此,如果与原始示例相比,下面的示例现在需要更长的时间)。无论如何,我想我设法复制了从plyr
or获得的输出dplyr
。它使用 data.table 运行得更快,这真的很酷(参见下面的基准测试)。但是,代码似乎有点笨拙:
library(plyr)
library(dplyr)
library(data.table)
library(rbenchmark)
someStatsFunction <- function (y, x) {
x <- as.integer(x)
mod <- coef(summary(lm(y ~ x)))
data.frame(stats1 = 'something',
intercept = mod[1],
slope = mod[2],
meanx = mean(x),
statx = sqrt(mean(abs(x)))/sd(y)^2)
}
customFunction <- function (data) {
if (!all(sort(data$time) == data$time)) {
stop('Column \'time\' is not ordered')
}
someStatsFunction(y = data$response, x = data$time)
}
myData <- data.frame(c1 = rep(rep(1:50, each = 30), 1095), c2 = rep(rep(1:30, 50), 1095), response = rnorm(30 * 50 * 1095), time = rep(seq(as.Date('1981-01-01'), as.Date('1983-12-31'), by = '1 day'), each = 50*30))
benchmark('testPlyr' = {
testPlyr <- plyr::ddply(myData, .(c1, c2), customFunction)
},
'testDplyr' = {
testDplyr <- myData %>% dplyr::group_by(c1,c2) %>% dplyr::do(customFunction(.))
},
'testDtb' = {
vNames <- c('stats1', 'intercept', 'slope', 'meanx', 'statx')
dt <- as.data.table(myData)
testDtb <- dt[order(time)][,
(vNames) := as.list(someStatsFunction(response, time)),
by = .(c1, c2)][,
head(.SD, 1), by = .(c1, c2)][,
c('response', 'time') := NULL, ]
},
replications = 3,
columns = c('test', 'replications', 'elapsed', 'relative', 'user.self', 'sys.self'))
这是我得到的输出:
test replications elapsed relative user.self sys.self
2 testDplyr 3 28.209 3.101 20.841 7.317
3 testDtb 3 9.098 1.000 10.958 0.385
1 testPlyr 3 28.224 3.102 21.741 7.167
如此大幅度的提高速度。但是,我必须在应用之前先对数据进行排序someStatsFunction
(即消除对if
at 语句的需要customFunction
),然后使用列response
和time
in运行函数myData
。此外,原始输出来自
dt[order(time)][, (vNames) := as.list(someStatsFunction(response, time)), by = .(c1, c2)]
给出一个不返回 1500 个值的表(即 30*50 的c1
和组合c2
),而是重复多次c1
和的组合. c2
此外,它确实返回了原始数据response
和time
列,尽管我只想要统计数据的唯一组合c1
和c2
绑定someStatsFunction
(如在输出中使用plyr
和/或dplyr
),因此我的最终代码
testDtb <- dt[order(time)][,
(vNames) := as.list(someStatsFunction(response, time)),
by = .(c1, c2)][,
head(.SD, 1), by = .(c1, c2)][,
c('response', 'time') := NULL, ]
无论如何我可以以更简化的方式实现相同的输出吗?
解决方案
尝试:
dt <- as.data.table(myData)
rr <- dt[, .(
lon = c1,
lat = c2,
name = 'something',
mean = mean(response),
sd = sd(response),
statx = sqrt(abs(response)) / sd(response) ^ 2
), keyby = .(c1, c2)]
rr
# c1 c2 lon lat name mean sd statx
# 1: 1 1 1 1 something 0.23841637 0.9384408 0.3253456
# 2: 1 1 1 1 something 0.23841637 0.9384408 0.2421654
# 3: 1 1 1 1 something 0.23841637 0.9384408 0.5321797
# 4: 1 1 1 1 something 0.23841637 0.9384408 0.4136648
# 5: 1 1 1 1 something 0.23841637 0.9384408 1.5863249
# ---
# 14996: 50 30 50 30 something -0.04082032 0.7156352 2.3970053
# 14997: 50 30 50 30 something -0.04082032 0.7156352 0.8375551
# 14998: 50 30 50 30 something -0.04082032 0.7156352 1.7826972
# 14999: 50 30 50 30 something -0.04082032 0.7156352 1.0293926
# 15000: 50 30 50 30 something -0.04082032 0.7156352 0.1376940
推荐阅读
- python - 获取距所选站点最近的网格单元的降水时间序列(全部循环)
- python - 函数不写入文本文件
- excel - 日期和时间图
- python - 如何在更改其列值之一时显示数据框?
- maven - 当不同仓库中有多个依赖项时,为什么 maven 使用错误的仓库?
- javascript - useEffect 缺少依赖项
- laravel - 更改值 psql where value between, as string
- python - TypeError:create_order() 接受 1 个位置参数,但给出了 2 个
- python - 我无法创建一个函数来告诉我 CSV 文件中发生了多少次地震
- python - Pytesseract OCR 用于图像上的单个字符