首页 > 解决方案 > 为什么当我迭代它们时,Rust 中的迭代器看起来很慢?

问题描述

我有一个使用 mmap 读取的大文件。我想在每一行上做一些操作,所以我在上面调用 split() ,这给了我每行的迭代器:

let file = File::open("myfile").unwrap();
let mmap = unsafe { MmapOptions::new().map(&file).unwrap() };
//splitting by newline
let iter = mmap.split(|elem| elem == &b'\n');

这工作正常,不会给我任何问题 - 运行速度非常快。

但是,当我通过迭代器时,它会跳转,通过 for 循环所需的时间大约是读取和拆分所需时间的 4 倍。

此外,这无需处理该行或在 for 循环内执行任何操作:

for elem in iter {
  //process the line
}

由于性能是一个问题 - 我发现它能够非常快速地读取和拆分文件很奇怪,但是,当我通过迭代器时它变得非常慢。我错过了什么吗?我对生锈的了解也很有限,所以不确定我是否在做坏事。有什么可以帮助我优化这一点并让我更快的访问时间吗?

此外,在我的情况下,并行迭代器并没有太大帮助——它们增加的开销是不值得的。

整个文件:

use memmap::MmapOptions;
use std::fs::File;
use std::time::{Duration, Instant};

fn main() {

    let now = Instant::now();
    let file = File::open("myfile").unwrap();
    let mmap = unsafe { MmapOptions::new().map(&file).unwrap() };
    let iter = mmap.split(|elem| elem == &b'\n');

    /*
    for elem in iter {
      //do nothing
    }
    */
    println!("{:?}", now.elapsed());
}

如果我取消注释 for 循环,它会慢 4 倍。我正在使用 --release 标签构建,所以这不是问题。

标签: rustiteratormmap

解决方案


该代码仅在取消注释 for 循环时看起来很慢,因为它不会做任何其他事情。迭代器是惰性的,仅在消耗时执行一些活动。

引用Rust 编程语言第 13 章第 2 节的相关部分:

在 Rust 中,迭代器是惰性的,这意味着它们只有在您调用使用迭代器的方法来使用它时才会生效。[...] 在迭代器上调用该next方法会更改迭代器用来跟踪它在序列中的位置的内部状态。换句话说,此代码消耗或用完迭代器

for 循环是使用迭代器的构造示例。调用.split()内存映射数据只会为该迭代器创建一个适配器(请注意,这并不意味着它会创建多个迭代器)。正如本书中所描述的,适配器是使用迭代器的一种常见方式。

在 trait 上定义的其他方法Iterator,称为迭代器适配器,允许您将迭代器更改为不同类型的迭代器。您可以将多个调用链接到迭代器适配器,以一种可读的方式执行复杂的操作。但是因为所有的迭代器都是惰性的,所以您必须调用其中一个使用适配器的方法来从对迭代器适配器的调用中获取结果。

因此,该示例不会急切地在内存中创建这些拆分,并且程序仅在存在 for 循环或以其他方式消耗迭代器时才做一些有价值的事情。

也可以看看:


推荐阅读