c++ - 多进程 MPI 与多线程 std::thread 性能
问题描述
我编写了一个简单的测试程序来比较使用 MPI 在多个进程上并行化的性能,或者在使用std::thread
. 并行化的工作只是写入一个大数组。我所看到的是多进程 MPI 在相当大的程度上胜过多线程。
测试代码为:
#ifdef USE_MPI
#include <mpi.h>
#else
#include <thread>
#endif
#include <iostream>
#include <vector>
void dowork(int i){
int n = 1000000000;
std::vector<int> foo(n, -1);
}
int main(int argc, char *argv[]){
int npar = 1;
#ifdef USE_MPI
MPI_Init(&argc, &argv);
MPI_Comm_size(MPI_COMM_WORLD, &npar);
#else
npar = 8;
if(argc > 1){
npar = atoi(argv[1]);
}
#endif
std::cout << "npar = " << npar << std::endl;
int i;
#ifdef USE_MPI
MPI_Comm_rank(MPI_COMM_WORLD, &i);
dowork(i);
MPI_Finalize();
#else
std::vector<std::thread> threads;
for(i = 0; i < npar; ++i){
threads.emplace_back([i](){
dowork(i);
});
}
for(i = 0; i < npar; ++i){
threads[i].join();
}
#endif
return 0;
}
生成文件是:
partest_mpi:
mpic++ -O2 -DUSE_MPI partest.cpp -o partest_mpi -lmpi
partest_threads:
c++ -O2 partest.cpp -o partest_threads -lpthread
并且执行的结果是:
$ time ./partest_threads 8
npar = 8
real 0m2.524s
user 0m4.691s
sys 0m9.330s
$ time mpirun -np 8 ./partest_mpi
npar = 8
npar = 8
npar = 8
npar = 8
npar = 8
npar = 8
npar = 8npar = 8
real 0m1.811s
user 0m4.817s
sys 0m9.011s
所以问题是,为什么会发生这种情况,我可以对线程代码做些什么来使其性能更好?我猜这与内存带宽和缓存利用率有关。我在 Intel i9-9820X 10 核 CPU 上运行它。
解决方案
TL;DR:确保你有足够的 RAM 并且基准指标是准确的。话虽如此,我无法在我的机器上重现这种差异(即我得到相同的性能结果)。
在大多数平台上,您的代码分配 30 GB(因为sizeof(int)=4
每个进程/线程都执行向量的分配,并且项目由向量初始化)。因此,您应该首先确保至少有足够的 RAM 来执行此操作。否则,由于内存交换,数据可能会被写入(慢得多的)存储设备(例如 SSD/HDD)。在这种极端情况下,基准并不是真正有用的(特别是因为结果可能不稳定)。
假设您有足够的 RAM,您的应用程序主要受page-faults约束。确实,在大多数现代主流平台上,操作系统(OS)会很快分配虚拟内存,但不会直接映射到物理内存。此映射过程通常在第一次读取/写入页面时完成(即页面错误)并且已知速度很慢。此外,出于安全原因(例如,不泄露其他进程的凭据),大多数操作系统会在第一次写入每个页面时将其归零,从而使页面错误更慢。在某些系统上,它可能无法很好地扩展(尽管在具有 Windows/Linux/Mac 的典型台式机上应该没问题)。这部分时间报告为系统时间。
其余时间主要是在 RAM 中填充向量所需的时间。这部分在许多平台上几乎无法扩展:通常 2-3 个内核显然足以使台式机上的 RAM 带宽饱和。
话虽如此,在我的机器上,我无法在分配的内存减少 10 倍的情况下重现相同的结果(因为我没有 30 GB 的 RAM)。这同样适用于减少 4 倍的内存。实际上,在我使用 i7-9600KF 的 Linux 机器上,MPI 版本要慢得多。请注意,结果相对稳定且可重复(无论排序和运行次数如何):
time ./partest_threads 6 > /dev/null
real 0m0,188s
user 0m0,204s
sys 0m0,859s
time mpirun -np 6 ./partest_mpi > /dev/null
real 0m0,567s
user 0m0,365s
sys 0m0,991s
MPI 版本的坏结果来自我机器上MPI 运行时的缓慢初始化,因为一个不执行任何操作的程序大约需要 350 毫秒来初始化。这实际上表明行为是平台相关的。至少,它表明time
不应该用来衡量这两个应用程序的性能。应该使用单调 C++ 时钟。
一旦代码被修复为使用准确的计时方法(使用 C++ 时钟和 MPI 屏障),我会在两个实现之间获得非常接近的性能结果(10 次运行,排序时间):
pthreads:
Time: 0.182812 s
Time: 0.186766 s
Time: 0.187641 s
Time: 0.18785 s
Time: 0.18797 s
Time: 0.188256 s
Time: 0.18879 s
Time: 0.189314 s
Time: 0.189438 s
Time: 0.189501 s
Median time: 0.188 s
mpirun:
Time: 0.185664 s
Time: 0.185946 s
Time: 0.187384 s
Time: 0.187696 s
Time: 0.188034 s
Time: 0.188178 s
Time: 0.188201 s
Time: 0.188396 s
Time: 0.188607 s
Time: 0.189208 s
Median time: 0.188 s
要对 Linux 进行更深入的分析,您可以使用该perf
工具。内核端分析表明,大部分时间(60-80%)都花在内核函数中,该函数clear_page_erms
在页面错误期间将页面归零(如前所述),然后__memset_avx2_erms
填充向量值。其他功能只占用总运行时间的一小部分。这是一个使用 pthread 的示例:
64,24% partest_threads [kernel.kallsyms] [k] clear_page_erms
18,80% partest_threads libc-2.31.so [.] __memset_avx2_erms
2,07% partest_threads [kernel.kallsyms] [k] prep_compound_page
0,86% :8444 [kernel.kallsyms] [k] clear_page_erms
0,82% :8443 [kernel.kallsyms] [k] clear_page_erms
0,74% :8445 [kernel.kallsyms] [k] clear_page_erms
0,73% :8446 [kernel.kallsyms] [k] clear_page_erms
0,70% :8442 [kernel.kallsyms] [k] clear_page_erms
0,69% :8441 [kernel.kallsyms] [k] clear_page_erms
0,68% partest_threads [kernel.kallsyms] [k] kernel_init_free_pages
0,66% partest_threads [kernel.kallsyms] [k] clear_subpage
0,62% partest_threads [kernel.kallsyms] [k] get_page_from_freelist
0,41% partest_threads [kernel.kallsyms] [k] __free_pages_ok
0,37% partest_threads [kernel.kallsyms] [k] _cond_resched
[...]
如果两个实现之一有任何内在的性能开销,perf
应该能够报告它。如果您在 Windows 上运行,则可以使用其他分析工具,例如 VTune。
推荐阅读
- sql - 有没有更好的方法通过加入 Redshift 来避免数据倾斜?
- ios - 带有 LongPressGestureRecognizer 的 Mapkit 间歇性工作
- php - 找到单词并用 str_replace 突出显示
- java - 仅当 XML/HTML 标记在特定标记之外时才附加它。JAVA/JSOUP
- c - 如何在C中使用open mp同时执行两个不同的功能
- electron - 电子:如何为 Darwin/OS X 设置文本
- apache-kafka - Kafka:不断获取 FETCH_SESSION_ID_NOT_FOUND
- ruby-on-rails - 从 Facebook 中发布的页面帖子创建广告
- javascript - 如何显示从一个组件发送到另一个组件的结果?
- c++ - 错误:C1083:无法打开包含文件:'boost/asio.hpp':没有这样的文件或目录