首页 > 解决方案 > 哪种提取方法最快?

问题描述

给定列表

li = list(a = list(b = list(1:3)))

以下提取方法给出相同的结果:

li[["a"]][["b"]][[1]][[2]]
[1] 2

purrr::pluck(li, "a", "b", 1, 2)
[1] 2

for (i in list("a", "b", 1, 2)) li = `[[`(li, i)
li
[1] 2

purrr::pluck并且for具有明显的优势,即可以以编程方式构造嵌套索引的向量。在比较它们时有什么需要考虑的:

标签: r

解决方案


虽然我不知道你问“哪种方法最快”“不仅是执行速度”是什么意思。如果您的意思是渐近性能,那么也许我们可以将列表扩大一点以进行测试。(如果您的意思是代码优雅、惯用语或其他东西,那么这可能不是最清楚的问题。)

我有第四个建议:

Reduce(`[[`, list('a','b',1L,2L), init=li)

性能对比:

microbenchmark::microbenchmark(
  base = li[["a"]][["b"]][[1]][[2]],
  purrr = purrr::pluck(li, "a", "b", 1, 2),
  "for" = { li0 <- li; for (i in list("a", "b", 1, 2)) li0 = `[[`(li0, i)}, 
  reduce = Reduce(`[[`, list('a', 'b', 1L, 2L), init=li)
)
# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base    1.5    2.65    3.747    3.60    4.95    8.9   100
#   purrr   33.9   62.00   73.727   67.70   91.90  159.1   100
#     for 2716.7 3465.65 4671.615 5120.05 5353.00 6090.2   100
#  reduce    9.6   18.60   23.519   21.50   28.10   73.5   100

让我们尝试一个更大的list

gargantuan <- setNames(1:2600, paste0(rep(LETTERS, times=100), rep(1:100, each=26)))
li = c(gargantuan, list(a = c(gargantuan, list(b = list(1:3)))))
li[["a"]][["b"]][[1]][[2]]
# [1] 2
### other tests confirm the results are identical

# Unit: microseconds
#    expr    min      lq     mean  median      uq    max neval
#    base   35.8   74.85  132.272  142.85  194.35  211.4   100
#   purrr  102.2  210.60  313.105  354.00  396.80  519.4   100
#     for 2151.8 3082.55 4338.619 4744.00 5354.95 5841.4   100
#  reduce   40.8   94.00  160.764  177.80  223.45  239.5   100

这表明该Reduce解决方案仅被文字/常量基本版本击败,并且对于一个比循环快一点且两个都快于循环的程序化、健壮的解决方案。Reducepurrr::pluckfor

(注意:我所说的健壮是指基本的索引方法,而不是防错或类似方法。它容易受到用户过度索引的影响,因此更具弹性的方法可能包括索引前检查和/或错误捕获。)


推荐阅读