cuda - cuda 从设备内存中复制内核中动态 malloc 的数据
问题描述
我遇到了一个关于使用cudaMemcpy和cudaMemcpyDeviceToHost的问题。
有一个结构,它有一个指针int* a,它将在内核函数中进行 malloc。然后我需要将此int* a复制到主机内存。
我的问题是:我不知道使用cudaMemcpy是如何工作的。
那里有我的代码:
#include <cuda_runtime.h>
#include <stdio.h>
typedef struct { int n, m; int *a; } myst;
__global__ void xthread(myst *st)
{
unsigned int idx = blockIdx.x*blockDim.x + threadIdx.x;
myst *mst = &st[idx];
mst->n = idx;
mst->m = idx+1;
mst->a = (int *)malloc((mst->m)*sizeof(int));
mst->a[0] = idx;
}
int main(int argc,char **argv)
{
dim3 dimGrid(1);
dim3 dimBlock(2);
myst *mst = NULL;
myst *hst = (myst *)malloc(2 * sizeof(myst));
cudaMalloc(&mst, 2 * sizeof(myst));
xthread<<<dimGrid, dimBlock>>>(mst);
cudaDeviceSynchronize();
cudaMemcpy(&hst[0],&mst[0],sizeof(myst),cudaMemcpyDeviceToHost);
cudaMemcpy(&hst[1],&mst[1],sizeof(myst),cudaMemcpyDeviceToHost);
int *pInt1 = (int *)malloc((hst[0].m)*sizeof(int)) ;
int *pInt2 = (int *)malloc((hst[1].m)*sizeof(int)) ;
cudaMemcpy(pInt1, hst[0].a, (hst[0].m)*sizeof(int), cudaMemcpyDeviceToHost);
cudaMemcpy(pInt2, hst[1].a, (hst[1].m)*sizeof(int), cudaMemcpyDeviceToHost);
printf("%d\t%d\t%d\n",hst[0].n,hst[0].m, pInt1[0]);
printf("%d\t%d\t%d\n",hst[1].n,hst[1].m, pInt2[0]);
free(pInt1);
free(pInt2);
return 0;
}
代码将发出有关“检测到 Cuda API 错误:返回 cudaMemcpy (0xb)”的警告
我看到了一个类似的问题:将设备中分配的数据从设备复制到主机 但似乎无法解决我的问题。
谢谢。
解决方案
好吧,我用一种愚蠢的方式解决了这个问题(-.-!!)。
从内核函数返回时,我计算了在 Host 和 Device 中需要 malloc 多少空间,而 cudaMalloc 又是一个很大的空间。接下来,在另一个名为ythread的内核函数中,将堆中的数据复制到大空间。
typedef struct { int n, m; int *a; } myst;
__global__ void xthread(myst *st) {
unsigned int idx = blockIdx.x * blockDim.x + threadIdx.x;
myst *mst = &st[idx];
mst->n = idx;
mst->m = idx + 1;
mst->a = (int *) malloc((mst->m) * sizeof(int));
for (int i = 0; i < mst->m; i++) {
mst->a[i] = idx + 900 + i * 10;
}
}
__global__ void ythread(myst *st, int *total_a) {
unsigned int idx = blockIdx.x*blockDim.x + threadIdx.x;
myst *mst = &st[idx];
int offset=0;
for(int i=0; i<idx; i++) {
offset += st[i].m;
}
for(int i=0; i<mst->m; i++) {
total_a[offset+i] = mst->a[i];
}
}
int main(int argc,char **argv) {
dim3 dimGrid(1);
dim3 dimBlock(2);
myst *mst = NULL;
cudaMalloc((void**)&mst, dimBlock.x * sizeof(myst));
xthread<<<dimGrid, dimBlock>>>(mst);
cudaDeviceSynchronize();
myst *hst = (myst *)malloc(dimBlock.x * sizeof(myst));
cudaMemcpy(hst, mst, dimBlock.x*sizeof(myst),cudaMemcpyDeviceToHost);
int t_size = 0;
for(int i=0; i<dimBlock.x; i++) {
t_size += hst[i].m;
}
printf("t_size:%d\n", t_size);
int * t_a_h = (int *)malloc(t_size*sizeof(int));
int * t_a_d = NULL;
cudaMalloc((void**)&t_a_d, t_size*sizeof(int));
ythread<<<dimGrid, dimBlock>>>(mst, t_a_d);
cudaDeviceSynchronize();
cudaMemcpy(t_a_h, t_a_d, t_size*sizeof(int),cudaMemcpyDeviceToHost);
for(int i=0; i<t_size; i++) {
printf("t_a_h[%d]:%d\n", i, t_a_h[i]);
}
free(t_a_h);
cudaFree(mst);
cudaFree(t_a_d);
return 0;
}
Emmmmmm,它有效,但我认为有更好的方法来解决这个问题。
推荐阅读
- r - 为一组文档找到最佳相似度度量
- azure - Azure DevOps yaml 依赖项
- mysql - “分隔符”在此位置无效,需要 CREATE
- react-native - 与他人分享 React 项目
- html - Angular:如何在 mat-dialog 上的 mat-select 中返回所选项目的所有数据,同时保留所选默认值的代码
- spring-cloud - 春季启动不编译
- ios - 如何使用 Xcode 在 iOS 中添加“使用 Apple 登录”功能
- flutter - 单击以获取列表视图颤动
- google-cloud-platform - WordPress IP 已更改
- protocol-buffers - proto 消息及其属性相对位置的差异