cuda - numba cuda 使用 += 时不会产生正确的结果（需要减少 gpu 吗？）

问题描述

我正在使用 numba cuda 来计算一个函数。

该代码只是将所有值添加到一个结果中，但 numba cuda 给我的结果与 numpy 不同。

密码

 import math
 def numba_example(number_of_maximum_loop,gs,ts,bs):
        from numba import cuda
        result = cuda.device_array([3,])

        @cuda.jit(device=True)

    def BesselJ0(x):
        return math.sqrt(2/math.pi/x)

    @cuda.jit
    def cuda_kernel(number_of_maximum_loop,result,gs,ts,bs):
        i = cuda.grid(1)
        if i < number_of_maximum_loop:
            result[0] += BesselJ0(i/100+gs)
            result[1] += BesselJ0(i/100+ts)
            result[2] += BesselJ0(i/100+bs)

    # Configure the blocks
    threadsperblock = 128
    blockspergrid = (number_of_maximum_loop + (threadsperblock - 1)) // threadsperblock

    # Start the kernel 
    cuda_kernel[blockspergrid, threadsperblock](number_of_maximum_loop,result,gs,ts,bs) 

    return result.copy_to_host()

numba_example(1000,20,20,20)

输出：

array([ 0.17770302,  0.34166728,  0.35132036])

代码

import math
def numpy_example(number_of_maximum_loop,gs,ts,bs):
    import numpy as np
    result = np.zeros([3,])

    def BesselJ0(x):
        return math.sqrt(2/math.pi/x)

    for i in range(number_of_maximum_loop):
        result[0] += BesselJ0(i/100+gs)
        result[1] += BesselJ0(i/100+ts)
        result[2] += BesselJ0(i/100+bs)

    return result

numpy_example(1000,20,20,20)

输出：

array([ 160.40546935,  160.40546935,  160.40546935])

我不知道我哪里错了。我想我可能会使用减少。但似乎不可能用一个 cuda 内核来完成它。

标签： cudanumbagpureduction

解决方案

是的，需要适当的并行缩减来将来自多个 GPU 线程的数据汇总到单个变量。

这是如何从单个内核完成的一个简单示例：

$ cat t23.py
import math
def numba_example(number_of_maximum_loop,gs,ts,bs):
    from numba import cuda
    result = cuda.device_array([3,])

    @cuda.jit(device=True)
    def BesselJ0(x):
        return math.sqrt(2/math.pi/x)

    @cuda.jit
    def cuda_kernel(number_of_maximum_loop,result,gs,ts,bs):
        i = cuda.grid(1)
        if i < number_of_maximum_loop:
            cuda.atomic.add(result, 0, BesselJ0(i/100+gs))
            cuda.atomic.add(result, 1, BesselJ0(i/100+ts))
            cuda.atomic.add(result, 2, BesselJ0(i/100+bs))

# Configure the blocks
    threadsperblock = 128
    blockspergrid = (number_of_maximum_loop + (threadsperblock - 1)) // threadsperblock

 # Start the kernel
    init = [0.0,0.0,0.0]
    result = cuda.to_device(init)
    cuda_kernel[blockspergrid, threadsperblock](number_of_maximum_loop,result,gs,ts,bs)

    return result.copy_to_host()

print(numba_example(1000,20,20,20))
$ python t23.py
[ 162.04299487  162.04299487  162.04299487]
$

您也可以直接使用此处reduce描述的装饰器对 numba 进行适当的减少，尽管我不确定是否可以通过这种方式在单个内核中完成 3 次减少。

最后，您可以使用 numba cuda 编写一个普通的 cuda 并行归约，如此处所示。我认为将其扩展到在单个内核中执行 3 次缩减应该不难。

当然，这 3 种不同的方法可能会有性能差异。

顺便说一句，如果您想知道我上面的代码与问题中的 python 代码之间的结果差异，我无法解释。当我运行你的 python 代码时，我得到的结果与我的答案中的 numba cuda 代码匹配：

$ cat t24.py
import math
def numpy_example(number_of_maximum_loop,gs,ts,bs):
    import numpy as np
    result = np.zeros([3,])

    def BesselJ0(x):
        return math.sqrt(2/math.pi/x)

    for i in range(number_of_maximum_loop):
        result[0] += BesselJ0(i/100+gs)
        result[1] += BesselJ0(i/100+ts)
        result[2] += BesselJ0(i/100+bs)

    return result

print(numpy_example(1000,20,20,20))
$ python t24.py
[ 162.04299487  162.04299487  162.04299487]
$

cuda - numba cuda 使用 += 时不会产生正确的结果（需要减少 gpu 吗？）

问题描述

解决方案

推荐阅读