r - 为什么 dplyr 这么慢?
问题描述
像大多数人一样,我对 Hadley Wickham 和他所做的工作印象深刻R
——所以我想我会将一些功能移至他的tidyverse
位置……完成后我想知道这一切的意义何在?
我的新dplyr
功能比它们的基本功能慢得多——我希望我做错了什么。我特别希望从理解所需的努力中获得一些回报non-standard-evaluation
。
那么,我做错了什么?为什么dplyr
这么慢?
一个例子:
require(microbenchmark)
require(dplyr)
df <- tibble(
a = 1:10,
b = c(1:5, 4:0),
c = 10:1)
addSpread_base <- function() {
df[['spread']] <- df[['a']] - df[['b']]
df
}
addSpread_dplyr <- function() df %>% mutate(spread := a - b)
all.equal(addSpread_base(), addSpread_dplyr())
microbenchmark(addSpread_base(), addSpread_dplyr(), times = 1e4)
计时结果:
Unit: microseconds
expr min lq mean median uq max neval
addSpread_base() 12.058 15.769 22.07805 24.58 26.435 2003.481 10000
addSpread_dplyr() 607.537 624.697 666.08964 631.19 636.291 41143.691 10000
因此,使用dplyr
函数转换数据需要大约 30 倍的时间——这肯定不是本意吗?
我认为这可能是一个太简单的案例——dplyr
如果我们有一个更现实的案例,我们正在添加一个列并对数据进行子设置,那真的会大放异彩——但情况更糟。从下面的时间可以看出,这比基本方法慢了约 70 倍。
# mutate and substitute
addSpreadSub_base <- function(df, col1, col2) {
df[['spread']] <- df[['a']] - df[['b']]
df[, c(col1, col2, 'spread')]
}
addSpreadSub_dplyr <- function(df, col1, col2) {
var1 <- as.name(col1)
var2 <- as.name(col2)
qq <- quo(!!var1 - !!var2)
df %>%
mutate(spread := !!qq) %>%
select(!!var1, !!var2, spread)
}
all.equal(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'))
microbenchmark(addSpreadSub_base(df, col1 = 'a', col2 = 'b'),
addSpreadSub_dplyr(df, col1 = 'a', col2 = 'b'),
times = 1e4)
结果:
Unit: microseconds
expr min lq mean median uq max neval
addSpreadSub_base(df, col1 = "a", col2 = "b") 22.725 30.610 44.3874 45.450 53.798 2024.35 10000
addSpreadSub_dplyr(df, col1 = "a", col2 = "b") 2748.757 2837.337 3011.1982 2859.598 2904.583 44207.81 10000
解决方案
这些是微秒,您的数据集有 10 行,除非您计划在数百万个 10 行的数据集上循环,否则您的基准几乎是无关紧要的(在这种情况下,我无法想象绑定不明智的情况他们一起作为第一步)。
让我们用更大的数据集来做,比如大 100 万倍:
df <- tibble(
a = 1:10,
b = c(1:5, 4:0),
c = 10:1)
df2 <- bind_rows(replicate(1000000,df,F))
addSpread_base <- function(df) {
df[['spread']] <- df[['a']] - df[['b']]
df
}
addSpread_dplyr <- function(df) df %>% mutate(spread = a - b)
microbenchmark::microbenchmark(
addSpread_base(df2),
addSpread_dplyr(df2),
times = 100)
# Unit: milliseconds
# expr min lq mean median uq max neval cld
# addSpread_base(df2) 25.85584 26.93562 37.77010 32.33633 35.67604 170.6507 100 a
# addSpread_dplyr(df2) 26.91690 27.57090 38.98758 33.39769 39.79501 182.2847 100 a
还是挺快的,差别不大。
至于你得到的结果的“为什么”,那是因为你使用了一个更复杂的函数,所以它有开销。
评论者指出,dplyr
不要太努力要快,与 相比,也许这是真的data.table
,界面是第一个关注点,但作者也一直在努力提高速度。例如,混合评估允许(如果我做对了)在与常用函数聚合时直接在分组数据上执行 C 代码,这可能比基本代码快得多,但简单代码总是使用简单函数运行得更快。
推荐阅读
- visual-c++ - 升级到通用 CRT-如何摆脱对 vcruntime140.dll 和 msvcp140.dll 的依赖?
- ios - 如何制作一个最多具有一定宽度并且总是尽可能短的框架?
- laravel - 获取所有未在 Laravel 中被阻止的用户的帖子?
- excel - 2 VBA 宏和日期格式的问题
- sql - 是否有使用 sql 查询检索 pl sql body 的语法?
- c# - 将 PictureBox 从一个窗体移动到另一个窗体 C#
- java - 从一类到主类的数组克隆
- sql - PostgreSQL 查询中的动态列名
- ios - Swift iOS 如何将字节转换为图像
- latex - r markdown中Latex表格环境的表格脚注