c++ - OpenMP 的缩放问题

问题描述

我为一种特殊类型的 3D CFD 模拟编写了代码，即 Lattice-Boltzmann 方法（与 Timm Krüger 等人的“The Lattice Boltzmann Method”一书中提供的代码非常相似）。使用 OpenMP 对程序进行多线程处理我遇到了一些我不太理解的问题：结果证明在很大程度上取决于整个域的大小。

基本原理是为 3D 域的每个单元分配特定值，用于离散方向上的 19 个分布函数 (0-18)。它们被放置在堆中分配的两个线性数组中（一个群体被布置在一个单独的数组中）：某个单元格的 18 个群体在内存中是连续的，连续 x 值的值彼此相邻，因此on（这样的行主要：人口-> x-> y-> z）。这些分布函数根据单元内的某些值重新分配，然后流式传输到相邻单元。出于这个原因，我有两个种群 f1 和 f2。该算法从 f1 中获取值，重新分配它们并将它们复制到 f2 中。然后交换指针，算法重新开始。该代码在单个内核上运行良好，但是当我尝试在多个内核上并行化它时，我得到的性能取决于域的整体大小：对于非常小的域（10^3 单元），该算法相对较慢每秒 1500 万个单元，对于相当小的域（30^3 个单元），该算法大约相当快，每秒超过 6000 万个单元，而对于任何大于该值的单元，性能再次下降到每秒约 3000 万个单元。在单核上执行代码只会导致每秒大约 1500 万个单元的相同性能。这些结果在不同的处理器之间当然会有所不同，但在质量上仍然存在相同的问题！对于非常小的域（10^3 个单元），该算法相对较慢，每秒 1500 万个单元，对于非常小的域（30^3 个单元），算法相当快，每秒超过 6000 万个单元，对于任何大于性能再次下降到每秒约 3000 万个单元。在单核上执行代码只会导致每秒大约 1500 万个单元的相同性能。这些结果在不同的处理器之间当然会有所不同，但在质量上仍然存在相同的问题！对于非常小的域（10^3 个单元），该算法相对较慢，每秒 1500 万个单元，对于非常小的域（30^3 个单元），算法相当快，每秒超过 6000 万个单元，对于任何大于性能再次下降到每秒约 3000 万个单元。在单核上执行代码只会导致每秒大约 1500 万个单元的相同性能。这些结果在不同的处理器之间当然会有所不同，但在质量上仍然存在相同的问题！

代码的核心归结为这个反复执行的并行循环，并交换了指向 f1 和 f2 的指针：

#pragma omp parallel for default(none) shared(f0,f1,f2) schedule(static)
    for(unsigned int z = 0; z < NZ; ++z)
    {
        for(unsigned int y = 0; y < NY; ++y)
        {
            for(unsigned int x = 0; x < NX; ++x)
            {
                /// temporary populations
                double ft0  = f0[D3Q19_ScalarIndex(x,y,z)];
                double ft1  = f1[D3Q19_FieldIndex(x,y,z,1)];
                double ft2  = f1[D3Q19_FieldIndex(x,y,z,2)];
                double ft3  = f1[D3Q19_FieldIndex(x,y,z,3)];
                double ft4  = f1[D3Q19_FieldIndex(x,y,z,4)];
                double ft5  = f1[D3Q19_FieldIndex(x,y,z,5)];
                double ft6  = f1[D3Q19_FieldIndex(x,y,z,6)];
                double ft7  = f1[D3Q19_FieldIndex(x,y,z,7)];
                double ft8  = f1[D3Q19_FieldIndex(x,y,z,8)];
                double ft9  = f1[D3Q19_FieldIndex(x,y,z,9)];
                double ft10 = f1[D3Q19_FieldIndex(x,y,z,10)];
                double ft11 = f1[D3Q19_FieldIndex(x,y,z,11)];
                double ft12 = f1[D3Q19_FieldIndex(x,y,z,12)];
                double ft13 = f1[D3Q19_FieldIndex(x,y,z,13)];
                double ft14 = f1[D3Q19_FieldIndex(x,y,z,14)];
                double ft15 = f1[D3Q19_FieldIndex(x,y,z,15)];
                double ft16 = f1[D3Q19_FieldIndex(x,y,z,16)];
                double ft17 = f1[D3Q19_FieldIndex(x,y,z,17)];
                double ft18 = f1[D3Q19_FieldIndex(x,y,z,18)];

                /// microscopic to macroscopic
                double r    = ft0 + ft1 + ft2 + ft3 + ft4 + ft5 + ft6 + ft7 + ft8 + ft9 + ft10 + ft11 + ft12 + ft13 + ft14 + ft15 + ft16 + ft17 + ft18;
                double rinv = 1.0/r;
                double u    = rinv*(ft1 - ft2 + ft7 + ft8  + ft9   + ft10 - ft11 - ft12 - ft13 - ft14);
                double v    = rinv*(ft3 - ft4 + ft7 - ft8  + ft11  - ft12 + ft15 + ft16 - ft17 - ft18);
                double w    = rinv*(ft5 - ft6 + ft9 - ft10 + ft13 -  ft14 + ft15 - ft16 + ft17 - ft18);

                /// collision & streaming
                double trw0 = omega*r*w0;                   //temporary variables
                double trwc = omega*r*wc;
                double trwd = omega*r*wd;
                double uu   = 1.0 - 1.5*(u*u+v*v+w*w);

                double bu = 3.0*u;
                double bv = 3.0*v;
                double bw = 3.0*w;

                unsigned int xp = (x + 1) % NX;             //calculate x,y,z coordinates of neighbouring cells
                unsigned int yp = (y + 1) % NY;
                unsigned int zp = (z + 1) % NZ;
                unsigned int xm = (NX + x - 1) % NX;
                unsigned int ym = (NY + y - 1) % NY;
                unsigned int zm = (NZ + z - 1) % NZ;

                f0[D3Q19_ScalarIndex(x,y,z)]      = bomega*ft0  + trw0*(uu);                        //redistribute distribution functions and stream to neighbouring cells
                double cu = bu;
                f2[D3Q19_FieldIndex(xp,y, z,  1)] = bomega*ft1  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = -bu;
                f2[D3Q19_FieldIndex(xm,y, z,  2)] = bomega*ft2  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = bv;
                f2[D3Q19_FieldIndex(x, yp,z,  3)] = bomega*ft3  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = -bv;
                f2[D3Q19_FieldIndex(x, ym,z,  4)] = bomega*ft4  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = bw;
                f2[D3Q19_FieldIndex(x, y, zp, 5)] = bomega*ft5  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = -bw;
                f2[D3Q19_FieldIndex(x, y, zm, 6)] = bomega*ft6  + trwc*(uu + cu*(1.0 + 0.5*cu));
                cu = bu+bv;
                f2[D3Q19_FieldIndex(xp,yp,z,  7)] = bomega*ft7  + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = bu-bv;
                f2[D3Q19_FieldIndex(xp,ym,z,  8)] = bomega*ft8  + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = bu+bw;
                f2[D3Q19_FieldIndex(xp,y, zp, 9)] = bomega*ft9  + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = bu-bw;
                f2[D3Q19_FieldIndex(xp,y, zm,10)] = bomega*ft10 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bu+bv;
                f2[D3Q19_FieldIndex(xm,yp,z, 11)] = bomega*ft11 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bu-bv;
                f2[D3Q19_FieldIndex(xm,ym,z, 12)] = bomega*ft12 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bu+bw;
                f2[D3Q19_FieldIndex(xm,y, zp,13)] = bomega*ft13 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bu-bw;
                f2[D3Q19_FieldIndex(xm,y, zm,14)] = bomega*ft14 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = bv+bw;
                f2[D3Q19_FieldIndex(x, yp,zp,15)] = bomega*ft15 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = bv-bw;
                f2[D3Q19_FieldIndex(x, yp,zm,16)] = bomega*ft16 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bv+bw;
                f2[D3Q19_FieldIndex(x, ym,zp,17)] = bomega*ft17 + trwd*(uu + cu*(1.0 + 0.5*cu));
                cu = -bv-bw;
                f2[D3Q19_FieldIndex(x, ym,zm,18)] = bomega*ft18 + trwd*(uu + cu*(1.0 + 0.5*cu));
            }
        }
    }

如果有人能给我提示如何找到这种特定行为的原因，或者甚至知道是什么可能导致这个问题，那就太棒了。如果需要，我可以提供完整版的简化代码！提前非常感谢！

标签： c++parallel-processingopenmpphysicsscientific-computing

在共享内存系统（单台机器上的线程代码）上实现扩展非常棘手，并且通常需要大量调整。您的代码中可能发生的情况是，每个线程的部分域适合“相当小”的问题大小的缓存，但是随着 NX 和 NY 中问题大小的增加，每个线程的数据不再适合缓存。

为避免此类问题，最好将域分解为固定大小的块，这些块的大小不随域而变化，而是在数量上发生变化。

const unsigned int numBlocksZ = std::ceil(static_cast<double>(NZ) / BLOCK_SIZE);
const unsigned int numBlocksY = std::ceil(static_cast<double>(NY) / BLOCK_SIZE);
const unsigned int numBlocksX = std::ceil(static_cast<double>(NX) / BLOCK_SIZE);

#pragma omp parallel for default(none) shared(f0,f1,f2) schedule(static,1)
for(unsigned int block = 0; block < numBlocks; ++block)
{
  unsigned int startZ = BLOCK_SIZE* (block / (numBlocksX*numBlocksY));
  unsigned int endZ = std::min(startZ + BLOCK_SIZE, NZ);
  for(unsigned int z = startZ; z < endZ; ++z) {
    unsigned int startY = BLOCK_SIZE*(((block % (numBlocksX*numBlocksY)) / numBlocksX);
    unsigned int endY = std::min(startY + BLOCK_SIZE, NY);
    for(unsigned int y = startY; y < endY; ++y)
    {
      unsigned int startX = BLOCK_SIZE(block % numBlocksX);
      unsigned int endX = std::min(startX + BLOCK_SIZE, NX);
      for(unsigned int x = startX; x < endX; ++x)
      {
        ...
      }
    }  
  }

像上面这样的方法还应该通过使用 3d 阻塞（假设这是一个 3d 模板操作）来增加缓存局部性，并进一步提高您的性能。您需要调整 BLOCK_SIZE 以找到在给定系统上为您提供最佳性能的因素（我会从小处开始并增加 2 的幂，例如 4、8、16...）。

c++ - OpenMP 的缩放问题

问题描述

解决方案

推荐阅读